基于碳排放与发展指标的区域人工智能发展前景研究

本文提出了一种基于碳排放约束的区域人工智能(AI)发展潜力评估方法,创新性地引入“生育力”指数来量化区域AI发展前景。研究结合中国各省份的碳排放数据(如原煤、焦炭、汽油等来源的排放量)与发展指标(产业结构升级系数、高新技术产业占比、政府支持力度等),通过主成分分析(PCA)降维提取核心影响因素(如碳排放承载力CA),并利用梯度提升决策树(GB-DT)模型预测AI发展水平与“生育力”的相关性。进一步采用长短期记忆网络(LSTM)模型进行时间序列预测,识别出未来五年最适合发展AI的省份(江苏、广东、山东、浙江、四川),同时发现AI发展存在区域溢出效应,但需平衡碳排放约束与电力供应问题。

基于碳排放与发展指标的区域人工智能发展前景研究

摘要
当今人工智能展现出惊人的生产力,其发展已成为许多国家的重要方向。然而在发展的同时,也需考虑人工智能发展对碳排放的不利影响,并寻找适合人工智能发展的环境与区域。针对这一问题,本文创新性地提出“生育力”概念来描述区域的AI发展潜力,并充分考虑AI发展对碳排放的不利影响。基于中国各省份近年碳排放与发展数据,通过主成分分析(PCA)和GB-DT模型对“生育力”进行建模,并结合LSTM预测未来AI发展潜力,从而得出中国各省份未来人工智能发展前景。

关键词:新质生产力,主成分分析(PCA),GB-DT,LSTM,人工智能发展潜力

1 引言

人工智能(AI)正在为社会发展带来越来越多的生产力[1],社会对AI发展的需求日益增长。AI与各行业的融合将带来不可估量的进步[2]。然而,由于AI发展的巨大需求[3],薛飞曾揭示AI发展的双重影响[4],特别是在电力消耗方面[5]。研究指出,在中国新时代经济结构转型的关键路径上,AI的激增不仅会对经济增长产生规模效应,推动信息技术产业创新集群发展,还会产生行业溢出效应,为相关产业带来红利,从而增加区域碳排放总量[6]。选择合适的发展地址可使AI发展保持活力,同时不对环境造成不利影响。

值得关注的是,人工智能发展并非总是对碳排放产生负面影响。当人工智能发展到一定程度时,它也可应用于发电[7]、节能[8]和废气处理等减少碳排放的相关技术。但目前人工智能仍处于发展阶段,我们在其发展规划中应始终考虑AI发展所产生的碳排放。

本文提出“生育力”概念来描述特定省份发展人工智能技术的前景并进行量化。同时基于马光伟的研究[9],通过整合政策环境和产业结构考量,建立更精确的人工智能水平评价体系。在考虑碳排放量的前提下,分析“生育力”与“本地人工智能发展水平”的相关性,证明“生育力”的参考价值。最终根据各省份“生育力”指数数据,得出当前最适合发展人工智能的省份。

2 结合碳排放指标的评价模型

2.1 生育力指数相关变量的确定

本文主要从以下角度考虑与生育力指数相关的变量:

(1) 产业结构升级系数
建立生育力指数需考虑产业结构转型的可行性。该指标称为产业结构升级系数,Δqm,n\Delta q_{m,n} 表示从周期m到周期n期间行业或部门j产值占总产值的比例。

Δqm,n=12jqjnqjm×100%(1)\Delta q_{m,n}=\frac{1}{2}\sum_{j}\left|q_{j}^{n}-q_{j}^{m}\right|\times 100\% \quad (1)

(2) 技术基础与创新能力
建立生育力指数需考虑当地科技企业的专业基础,结合高新技术产业占比数据。在尖端技术协作方面,技术先进的省份在其他技术领域往往具有更快的适应能力。此外,计算科技论文数据增长率作为补充说明。

(3) 碳排放承载力(CA)
本文创新性地引入省份碳排放总量作为首要环境因子变量。结合各省不同来源的碳排放量与其AI发展水平进行主成分分析,结果如表1和图1所示。

以主成分分析结果为权重,对不同来源碳排放进行加权求和,代表区域的排放承载能力。

CA=ω1×ca1+ω2×ca2++ωn×can(2)CA=\omega_{1}\times ca_{1}+\omega_{2}\times ca_{2}+\cdots+\omega_{n}\times ca_{n} \quad (2)

其中CA代表区域的排放承载能力,ωn\omega_{n}代表不同来源碳排放主成分分析的权重,canca_{n}代表不同来源的碳排放量。在后续研究中,CA将作为描述区域“生育力”的重要指标之一。

表1 不同来源碳排放的主成分分析结构

碳排放来源 因子载荷 共同度(公因子方差)
原煤 0.257 0.066
焦炭 0.605 0.366
汽油 0.831 0.690
石蜡 -0.309 0.095
柴油 0.847 0.718
燃料油 0.237 0.056

(4) 政府支持力度
技术能否在中国特定省份实施取决于当地政策环境和发展方向。因此建立以下变量表示政府对AI发展的支持程度:

政府支持AI发展数据:

a9(x)={a1(x)a1(x1)i=1279(a1(i)a1(i1)),x mod 900,x mod 9=0(3)a_{9(x)}=\left\{\begin{array}{ll} \frac{a_{1(x)}-a_{1(x-1)}}{\sum_{i=1}^{279}\left(a_{1(i)}-a_{1(i-1)}\right)}, & x \text{ mod } 9 \neq 0 \\ 0, & x \text{ mod } 9 = 0 \end{array} \quad (3)\right.

其中a9(x)a_{9(x)}表示数据集中按x顺序排列的政府支持AI发展数据值,lxl_x表示数据集中按x顺序排列的政府新产品开发资金数据值。

城市科技论文增长率:

a2(x)={lxlx1i=1279(lili1),x mod 900,x mod 9=0(4)a_{2(x)}=\left\{\begin{array}{ll} \frac{l_x-l_{x-1}}{\sum_{i=1}^{279}\left(l_i-l_{i-1}\right)}, & x \text{ mod } 9 \neq 0 \\ 0, & x \text{ mod } 9 = 0 \end{array} \quad (4)\right.

其中a2(x)a_{2(x)}表示数据集中按x顺序排列的城市科技论文增长率值,lxl_x表示数据集中按x顺序排列的城市科技论文发布数量值。

2.2 消除原始数据影响

在正式建模前,需对处理后的数据进行效度检验。量表效度的选择参考杨梦成[10]建立的中国人工智能产业评价指标体系,结合当前关键碳排放指标进行合理权重分配。在此前提下,使用KMO检验和Bartlett检验确保变量的测量维度与需研究的问题强相关。

表2 KMO与Bartlett检验结果

检验指标
KMO值 0.616
Bartlett近似卡方 2140.42
Bartlett自由度 45
Bartlett P值 0.002***

KMO检验结果如图2所示,KMO值为0.616。同时Bartlett球形检验显示显著性P值为0.002***,在显著水平上拒绝原假设,表明变量间存在相关性,主成分分析有效。随后求解特征值,将原始数据表示为m×n矩阵,其中m为变量数,n为原始数据点数。以原始数据均值作为特征值进行分解,得到多个特征向量及其对应的特征值。

根据各主成分解释数据变异程度,两种模型在特征值下降斜率上存在差异。通过寻找图2中“斜率趋于平缓”的突变点,确定主成分数量为5。

2.3 模型求解

将主成分数量调整为5,重新进行主成分分析,分析各主成分中隐含变量的重要性,并结合具体业务进行各因子的隐含变量分析。各成分生育力指数载荷矩阵热力图如图3所示。

基于变量降维,本文建立的考虑碳排放因素的人工智能发展潜力评价体系简化为5个主成分,并具有较高的共性度。通过SPSS26.0的评价评分系统,整理收集了2014-2022年各省发展潜力得分,获得中国各省份九年间“生育力”变化情况。

3 人工智能技术水平与生育力相关性的预测模型

3.1 基于决策树的集成算法选择

决策树在数据分析初期可能简单易行且易于解释,可探索多种因素与目标变量(即AI发展水平)之间的关系。为进一步确保结果的准确性和可靠性,我们首先引入了两种基于决策树的集成算法,包括随机森林和CatBoost(分类提升)。这两种算法在训练过程中的表现如图4、5、6、7所示:

随机森林模型和CatBoost共享决策树的基本逻辑,但应用不同算法,各有优缺点。使用均方误差(MSE)作为指标评估预测准确性,大致确定哪种算法更适合我们的方案预测。MSE求解公式如下:

MSE=1ni=1n(yiy^i)2(5)MSE=\frac{1}{n}\sum_{i=1}^n\left(y_i-\hat{y}_i\right)^2 \quad (5)

其中n为样本总数,yiy_i为第i个观测值的实际值,y^i\hat{y}_i为预测值。模型的MSE值越小,预测结果越准确。通过计算可确定随机森林模型和CatBoost中哪个更适合我们的方案预测。结果如表3所示。

表3 随机森林与CatBoost比较

模型名称 MSE
随机森林 0.000660602
CatBoost 0.000480439

从表中可得出结论:本文涉及的数据更适合使用CatBoost方法进行预测。

3.2 基于梯度提升的精确处理

与CatBoost相似或在其基础上改进的还有XGBoost模型和GBDT模型。XGBoost模型在CatBoost基础上向损失函数添加了正则化项:

Ω(fk)=γT+12λj=1Tωj2(6)\Omega\left(f_k\right)=\gamma T+\frac{1}{2}\lambda\sum_{j=1}^T\omega_j^2 \quad (6)

其中T为树中叶子节点数,ωj\omega_j为叶子节点权重,γ\gammaλ\lambda为正则化参数。这可以极大防止模型过拟合。虽然GBDT模型不如XGBoost先进,但其对数据“异常值”的敏感度远超上述模型。三种模型各有特点,为获得最佳预测结果,我们对这两种模型进行训练,并通过相应MSE值表示其预测能力,如表4所示。

表4 随机森林、GBDT与CatBoost预测验证

模型名称 MSE
XGBoost 0.000609232
GBDT 0.000336472
CatBoost 0.000480439

训练过程中还获得了XGBoost和GBDT模型的预测值与实际值对比图以及学习曲线,如图8、9、10、11所示。

3.3 预测结果与“生育力”相关性

将GBDT模型对各城市各年度AI发展水平的预测结果与各省份各年度“生育力”指数进行Kendall一致性检验。等级方差计算公式如下:

sj2=i=1nrij2n(n+1)24n(n1)2(7)s_j^2=\frac{\sum_{i=1}^n r_{ij}^2-\frac{n(n+1)^2}{4}}{\frac{n(n-1)}{2}} \quad (7)

其中γij\gamma_{ij}表示第i位评价者给予第j个对象的等级。随后使用Kendall系数量化一致性水平,其公式如下:

W=12k2(n3n)j=1ksj23(n1)(8)W=\frac{12}{k^2(n^3-n)}\sum_{j=1}^k s_j^2-3(n-1) \quad (8)

其中k为评价者数量,n为待排序对象数量,sj2s_j^2为第j个对象的等级方差。Kendall分析结果如表5所示。

表5 Kendall’s W分析结果

名称 等级均值 中位数 Kendall’s W系数 X2X^2 P
生育力 1.99 0.356 0.96 96.04 0.000***
发展水平变化量 1.01 0.006 0.96 96.04 0.000***

从表5得出结论:城市的“生育力”指数能很好地代表该区域AI发展潜力。

4 结合时间序列的“生育力”状态调整

4.1 基于时间序列的神经网络模型

接下来预测中国各省份未来的“生育力”指数,结合前期研究成果确定中国各省份未来生育力水平。本文旨在通过训练LSTM模型实现预测。

LSTM(长短期记忆)模型是一种特殊的循环神经网络(RNN),在处理和预测时间序列数据方面表现优异。该模型引入三种门控结构(输入门、遗忘门、输出门)控制信息流。

遗忘门决定应从细胞状态中遗忘哪些信息,使用sigmoid激活函数输出0到1之间的值,表示每个细胞状态的遗忘程度:

ft=σ(Wf×[ht1,xt]+bf)(9)f_t=\sigma\left(W_f\times\left[h_{t-1},x_t\right]+b_f\right) \quad (9)

其中ftf_t为时间步tt遗忘门的输出;ht1h_{t-1}为前一时间步的隐藏状态;xtx_t为当前时间步的输入;WfW_fbfb_f为遗忘门的权重矩阵和偏置向量;σ\sigma为sigmoid激活函数。

输入门决定应将哪些新信息存储到细胞状态中:

it=σ(Wi×[ht1,xt]+bi)(10)C~t=tanh(Wc×[ht1,xt]+bc)(11)\begin{aligned} i_t&=\sigma\left(W_i\times\left[h_{t-1},x_t\right]+b_i\right) \quad (10)\\ \widetilde{C}_t&=\tanh\left(W_c\times\left[h_{t-1},x_t\right]+b_c\right) \quad (11) \end{aligned}

其中iti_t为时间步tt输入门的输出;C~t\widetilde{C}_t为候选细胞状态。Wi,WcW_i, W_cbi,bcb_i, b_c为输入门和候选细胞状态的权重矩阵和偏置向量。

输出门决定隐藏状态的值,这是基于当前细胞状态的函数:

ot=σ(Wo×[ht1,xt]+bo)(12)ht=ot×tanh(Ct)(13)\begin{aligned} o_t&=\sigma\left(W_o\times\left[h_{t-1},x_t\right]+b_o\right) \quad (12)\\ h_t&=o_t\times\tanh\left(C_t\right) \quad (13) \end{aligned}

其中oto_t为当前时间步细胞状态;WoW_obob_o为前一时间步的隐藏状态。

4.2 通过超参数搜索和早停回调获取最佳结果

训练LSTM模型时,为尽可能确保预测结果的准确性和合理性,将先找到最适合该省份的LSTM模型参数(该省份最优参数),再预测该省份未来数据。通过随机搜索参数优化寻找每个省份LSTM模型的最佳参数。

首先根据模型结构定义LSTM模型的参数空间,即所有可能参数组合的集合。可表示为:

Ω={(p1,p2,,pn)pisearchSpace(pi)}(14)\Omega=\left\{\left(p_1,p_2,\cdots,p_n\right)\mid p_i\in \operatorname{searchSpace}(p_i)\right\} \quad (14)

其中pip_i为第i个超参数;searchSpace(pi)\operatorname{searchSpace}(p_i)为该超参数的搜索范围。然后在参数空间中进行随机抽样,从空间中抽取一组随机参数组合。

ω=(p1,p2,,pn)(15)\omega=\left(p_1^{\prime},p_2^{\prime},\cdots,p_n^{\prime}\right) \quad (15)

在测试足够多的随机抽样结果后,确定准确率最高的最佳参数组。

ωbest=argmaxj(P(ω1),P(ω2),,P(ωk))(16)Pbest=P(ωbest)(17)\begin{aligned} \omega_{\text{best}}&=\arg\max_{j}\left(P(\omega_1),P(\omega_2),\cdots,P(\omega_k)\right) \quad (16)\\ P_{\text{best}}&=P(\omega_{\text{best}}) \quad (17) \end{aligned}

其中ωj\omega_j为第j次随机抽样得到的超参数组合;P(ωj)P(\omega_j)为采用第j组随机参数的LSTM模型准确率;k为总试验次数;ωbest\omega_{\text{best}}为所有随机参数组合中准确率最高的参数组。

通过上述方法,结合早停、随机搜索参数优化方法和LSTM模型训练方法,已成功确定各省份独有的LSTM模型最优参数,并获得了未来数据的预测结果。

5 结论

本文基于中国各省份发展状况和环境承载力,结合近年AI发展态势,建立模型描述区域AI发展前景规模。确定了未来五年中国最适合发展AI的省份:江苏省、广东省、山东省、浙江省和四川省。通过观察江苏省AI发展水平和“生育力”发现,高AI发展水平不一定意味着高生育力。过于迅猛的发展可能导致生育力下降。因此,为保持未来AI发展势头,必须建立更好的碳排放处理机制或采用更清洁的能源结构。

研究还揭示AI发展具有区域带动效应。与AI发展水平较高地区相邻省份的“生育力”也会有所提升,这在安徽省表现尤为明显。此外,经济发展水平并不直接决定省份的AI发展生育力。AI的发展在很大程度上取决于充足的电力供应。如果一个地区能源受限且电力需求高,这可能成为AI发展的劣势,通过比较四川省和江苏省可见一斑。因此,在亟需发展AI的未来,以最小碳排放确保AI发展的电力供应是重要前提。

最后值得指出,AI发展并非总是对碳排放产生负面影响。当AI技术发展到足够程度时,它也可应用于能减少碳排放的技术,如发电[9]、节能[10]和废气处理等。但由于AI仍处于发展阶段,我们在其发展规划中应始终考虑AI发展引起的碳排放问题。

参考文献

[1] 朱鸣杰. AI应用或成引领产业变革新质生产力[J]. 上海工运, 2024,(06):52.
[2] Feng D, Shengnan Z, Jiao Z, et al. The Impact of the Integrated Development of AI and Energy Industry on Regional Energy Industry: A Case of China[J]. International Journal of Environmental Research and Public Health, 2021,18(17):8946-8946.
[5] 陈永伟. 超越ChatGPT:生成式AI的机遇、风险与挑战[J]. 山东大学学报(哲学社会科学版), 2023,(03):127-143.
[6] 石碧. 人工智能助推我国新时代经济结构转型升级的路径选择[J]. 西北大学学报(哲学社会科学版), 2019,49(05):14-20.
[7] 张晓顺, 李金成, 郭正勋. 大模型辅助的海上大型风电场集电系统拓扑优化[J]. 高电压技术, 2024,50(07):2894-2905.
[8] 丁力夫, 陈颖, 肖坦南, 等. 基于大语言模型的新型电力系统生成式智能应用模式初探[J/OL]. 电力系统自动化, 1-16[2024-08-01].
[9] 马光伟, 钟雨婷, 钟坚. 我国人工智能发展评价指标体系构建与实证测度[J]. 科技管理研究, 2023,43(18):55-61.
[10] 杨梦成. 中国人工智能产业评价指标体系研究[J]. 价值工程, 2021.

Donate
  • Copyrights © 2015-2025 Xinyu Zhuang
  • Visitors: | Views:

请我喝杯咖啡吧~

支付宝
微信