基于碳排放与发展指标的区域人工智能发展前景研究

2024-08-13

Word count: 5.1k | Reading time≈ 20 min

本文提出了一种基于碳排放约束的区域人工智能（AI）发展潜力评估方法，创新性地引入“生育力”指数来量化区域AI发展前景。研究结合中国各省份的碳排放数据（如原煤、焦炭、汽油等来源的排放量）与发展指标（产业结构升级系数、高新技术产业占比、政府支持力度等），通过主成分分析（PCA）降维提取核心影响因素（如碳排放承载力CA），并利用梯度提升决策树（GB-DT）模型预测AI发展水平与“生育力”的相关性。进一步采用长短期记忆网络（LSTM）模型进行时间序列预测，识别出未来五年最适合发展AI的省份（江苏、广东、山东、浙江、四川），同时发现AI发展存在区域溢出效应，但需平衡碳排放约束与电力供应问题。

基于碳排放与发展指标的区域人工智能发展前景研究

摘要：
当今人工智能展现出惊人的生产力，其发展已成为许多国家的重要方向。然而在发展的同时，也需考虑人工智能发展对碳排放的不利影响，并寻找适合人工智能发展的环境与区域。针对这一问题，本文创新性地提出“生育力”概念来描述区域的AI发展潜力，并充分考虑AI发展对碳排放的不利影响。基于中国各省份近年碳排放与发展数据，通过主成分分析(PCA)和GB-DT模型对“生育力”进行建模，并结合LSTM预测未来AI发展潜力，从而得出中国各省份未来人工智能发展前景。

关键词：新质生产力，主成分分析(PCA)，GB-DT，LSTM，人工智能发展潜力

1 引言

人工智能(AI)正在为社会发展带来越来越多的生产力[1]，社会对AI发展的需求日益增长。AI与各行业的融合将带来不可估量的进步[2]。然而，由于AI发展的巨大需求[3]，薛飞曾揭示AI发展的双重影响[4]，特别是在电力消耗方面[5]。研究指出，在中国新时代经济结构转型的关键路径上，AI的激增不仅会对经济增长产生规模效应，推动信息技术产业创新集群发展，还会产生行业溢出效应，为相关产业带来红利，从而增加区域碳排放总量[6]。选择合适的发展地址可使AI发展保持活力，同时不对环境造成不利影响。

值得关注的是，人工智能发展并非总是对碳排放产生负面影响。当人工智能发展到一定程度时，它也可应用于发电[7]、节能[8]和废气处理等减少碳排放的相关技术。但目前人工智能仍处于发展阶段，我们在其发展规划中应始终考虑AI发展所产生的碳排放。

本文提出“生育力”概念来描述特定省份发展人工智能技术的前景并进行量化。同时基于马光伟的研究[9]，通过整合政策环境和产业结构考量，建立更精确的人工智能水平评价体系。在考虑碳排放量的前提下，分析“生育力”与“本地人工智能发展水平”的相关性，证明“生育力”的参考价值。最终根据各省份“生育力”指数数据，得出当前最适合发展人工智能的省份。

2 结合碳排放指标的评价模型

2.1 生育力指数相关变量的确定

本文主要从以下角度考虑与生育力指数相关的变量：

(1) 产业结构升级系数
建立生育力指数需考虑产业结构转型的可行性。该指标称为产业结构升级系数， $\Delta q_{m,n}$ 表示从周期m到周期n期间行业或部门j产值占总产值的比例。

\Delta q_{m,n}=\frac{1}{2}\sum_{j}\left|q_{j}^{n}-q_{j}^{m}\right|\times 100\% \quad (1)

(2) 技术基础与创新能力
建立生育力指数需考虑当地科技企业的专业基础，结合高新技术产业占比数据。在尖端技术协作方面，技术先进的省份在其他技术领域往往具有更快的适应能力。此外，计算科技论文数据增长率作为补充说明。

(3) 碳排放承载力(CA)
本文创新性地引入省份碳排放总量作为首要环境因子变量。结合各省不同来源的碳排放量与其AI发展水平进行主成分分析，结果如表1和图1所示。

以主成分分析结果为权重，对不同来源碳排放进行加权求和，代表区域的排放承载能力。

CA=\omega_{1}\times ca_{1}+\omega_{2}\times ca_{2}+\cdots+\omega_{n}\times ca_{n} \quad (2)

其中CA代表区域的排放承载能力， $\omega_{n}$ 代表不同来源碳排放主成分分析的权重， $ca_{n}$ 代表不同来源的碳排放量。在后续研究中，CA将作为描述区域“生育力”的重要指标之一。

表1 不同来源碳排放的主成分分析结构

碳排放来源	因子载荷	共同度(公因子方差)
原煤	0.257	0.066
焦炭	0.605	0.366
汽油	0.831	0.690
石蜡	-0.309	0.095
柴油	0.847	0.718
燃料油	0.237	0.056

(4) 政府支持力度
技术能否在中国特定省份实施取决于当地政策环境和发展方向。因此建立以下变量表示政府对AI发展的支持程度：

政府支持AI发展数据：

a_{9(x)}=\left\{\begin{array}{ll} \frac{a_{1(x)}-a_{1(x-1)}}{\sum_{i=1}^{279}\left(a_{1(i)}-a_{1(i-1)}\right)}, & x \text{ mod } 9 \neq 0 \\ 0, & x \text{ mod } 9 = 0 \end{array} \quad (3)\right.

其中 $a_{9(x)}$ 表示数据集中按x顺序排列的政府支持AI发展数据值， $l_x$ 表示数据集中按x顺序排列的政府新产品开发资金数据值。

城市科技论文增长率：

a_{2(x)}=\left\{\begin{array}{ll} \frac{l_x-l_{x-1}}{\sum_{i=1}^{279}\left(l_i-l_{i-1}\right)}, & x \text{ mod } 9 \neq 0 \\ 0, & x \text{ mod } 9 = 0 \end{array} \quad (4)\right.

其中 $a_{2(x)}$ 表示数据集中按x顺序排列的城市科技论文增长率值， $l_x$ 表示数据集中按x顺序排列的城市科技论文发布数量值。

2.2 消除原始数据影响

在正式建模前，需对处理后的数据进行效度检验。量表效度的选择参考杨梦成[10]建立的中国人工智能产业评价指标体系，结合当前关键碳排放指标进行合理权重分配。在此前提下，使用KMO检验和Bartlett检验确保变量的测量维度与需研究的问题强相关。

表2 KMO与Bartlett检验结果

检验指标	值
KMO值	0.616
Bartlett近似卡方	2140.42
Bartlett自由度	45
Bartlett P值	0.002***

KMO检验结果如图2所示，KMO值为0.616。同时Bartlett球形检验显示显著性P值为0.002***，在显著水平上拒绝原假设，表明变量间存在相关性，主成分分析有效。随后求解特征值，将原始数据表示为m×n矩阵，其中m为变量数，n为原始数据点数。以原始数据均值作为特征值进行分解，得到多个特征向量及其对应的特征值。

根据各主成分解释数据变异程度，两种模型在特征值下降斜率上存在差异。通过寻找图2中“斜率趋于平缓”的突变点，确定主成分数量为5。

2.3 模型求解

将主成分数量调整为5，重新进行主成分分析，分析各主成分中隐含变量的重要性，并结合具体业务进行各因子的隐含变量分析。各成分生育力指数载荷矩阵热力图如图3所示。

基于变量降维，本文建立的考虑碳排放因素的人工智能发展潜力评价体系简化为5个主成分，并具有较高的共性度。通过SPSS26.0的评价评分系统，整理收集了2014-2022年各省发展潜力得分，获得中国各省份九年间“生育力”变化情况。

3 人工智能技术水平与生育力相关性的预测模型

3.1 基于决策树的集成算法选择

决策树在数据分析初期可能简单易行且易于解释，可探索多种因素与目标变量（即AI发展水平）之间的关系。为进一步确保结果的准确性和可靠性，我们首先引入了两种基于决策树的集成算法，包括随机森林和CatBoost（分类提升）。这两种算法在训练过程中的表现如图4、5、6、7所示：

随机森林模型和CatBoost共享决策树的基本逻辑，但应用不同算法，各有优缺点。使用均方误差（MSE）作为指标评估预测准确性，大致确定哪种算法更适合我们的方案预测。MSE求解公式如下：

MSE=\frac{1}{n}\sum_{i=1}^n\left(y_i-\hat{y}_i\right)^2 \quad (5)

其中n为样本总数， $y_i$ 为第i个观测值的实际值， $\hat{y}_i$ 为预测值。模型的MSE值越小，预测结果越准确。通过计算可确定随机森林模型和CatBoost中哪个更适合我们的方案预测。结果如表3所示。

表3 随机森林与CatBoost比较

模型名称	MSE
随机森林	0.000660602
CatBoost	0.000480439

从表中可得出结论：本文涉及的数据更适合使用CatBoost方法进行预测。

3.2 基于梯度提升的精确处理

与CatBoost相似或在其基础上改进的还有XGBoost模型和GBDT模型。XGBoost模型在CatBoost基础上向损失函数添加了正则化项：

\Omega\left(f_k\right)=\gamma T+\frac{1}{2}\lambda\sum_{j=1}^T\omega_j^2 \quad (6)

其中T为树中叶子节点数， $\omega_j$ 为叶子节点权重， $\gamma$ 和 $\lambda$ 为正则化参数。这可以极大防止模型过拟合。虽然GBDT模型不如XGBoost先进，但其对数据“异常值”的敏感度远超上述模型。三种模型各有特点，为获得最佳预测结果，我们对这两种模型进行训练，并通过相应MSE值表示其预测能力，如表4所示。

表4 随机森林、GBDT与CatBoost预测验证

模型名称	MSE
XGBoost	0.000609232
GBDT	0.000336472
CatBoost	0.000480439

训练过程中还获得了XGBoost和GBDT模型的预测值与实际值对比图以及学习曲线，如图8、9、10、11所示。

3.3 预测结果与“生育力”相关性

将GBDT模型对各城市各年度AI发展水平的预测结果与各省份各年度“生育力”指数进行Kendall一致性检验。等级方差计算公式如下：

s_j^2=\frac{\sum_{i=1}^n r_{ij}^2-\frac{n(n+1)^2}{4}}{\frac{n(n-1)}{2}} \quad (7)

其中 $\gamma_{ij}$ 表示第i位评价者给予第j个对象的等级。随后使用Kendall系数量化一致性水平，其公式如下：

W=\frac{12}{k^2(n^3-n)}\sum_{j=1}^k s_j^2-3(n-1) \quad (8)

其中k为评价者数量，n为待排序对象数量， $s_j^2$ 为第j个对象的等级方差。Kendall分析结果如表5所示。

表5 Kendall’s W分析结果

名称	等级均值	中位数	Kendall’s W系数	$X^2$	P
生育力	1.99	0.356	0.96	96.04	0.000***
发展水平变化量	1.01	0.006	0.96	96.04	0.000***

从表5得出结论：城市的“生育力”指数能很好地代表该区域AI发展潜力。

4 结合时间序列的“生育力”状态调整

4.1 基于时间序列的神经网络模型

接下来预测中国各省份未来的“生育力”指数，结合前期研究成果确定中国各省份未来生育力水平。本文旨在通过训练LSTM模型实现预测。

LSTM（长短期记忆）模型是一种特殊的循环神经网络（RNN），在处理和预测时间序列数据方面表现优异。该模型引入三种门控结构（输入门、遗忘门、输出门）控制信息流。

遗忘门决定应从细胞状态中遗忘哪些信息，使用sigmoid激活函数输出0到1之间的值，表示每个细胞状态的遗忘程度：

f_t=\sigma\left(W_f\times\left[h_{t-1},x_t\right]+b_f\right) \quad (9)

其中 $f_t$ 为时间步 $t$ 遗忘门的输出； $h_{t-1}$ 为前一时间步的隐藏状态； $x_t$ 为当前时间步的输入； $W_f$ 和 $b_f$ 为遗忘门的权重矩阵和偏置向量； $\sigma$ 为sigmoid激活函数。

输入门决定应将哪些新信息存储到细胞状态中：

\begin{aligned} i_t&=\sigma\left(W_i\times\left[h_{t-1},x_t\right]+b_i\right) \quad (10)\\ \widetilde{C}_t&=\tanh\left(W_c\times\left[h_{t-1},x_t\right]+b_c\right) \quad (11) \end{aligned}

其中 $i_t$ 为时间步 $t$ 输入门的输出； $\widetilde{C}_t$ 为候选细胞状态。 $W_i, W_c$ 和 $b_i, b_c$ 为输入门和候选细胞状态的权重矩阵和偏置向量。

输出门决定隐藏状态的值，这是基于当前细胞状态的函数：

\begin{aligned} o_t&=\sigma\left(W_o\times\left[h_{t-1},x_t\right]+b_o\right) \quad (12)\\ h_t&=o_t\times\tanh\left(C_t\right) \quad (13) \end{aligned}

其中 $o_t$ 为当前时间步细胞状态； $W_o$ 和 $b_o$ 为前一时间步的隐藏状态。

4.2 通过超参数搜索和早停回调获取最佳结果

训练LSTM模型时，为尽可能确保预测结果的准确性和合理性，将先找到最适合该省份的LSTM模型参数（该省份最优参数），再预测该省份未来数据。通过随机搜索参数优化寻找每个省份LSTM模型的最佳参数。

首先根据模型结构定义LSTM模型的参数空间，即所有可能参数组合的集合。可表示为：

\Omega=\left\{\left(p_1,p_2,\cdots,p_n\right)\mid p_i\in \operatorname{searchSpace}(p_i)\right\} \quad (14)

其中 $p_i$ 为第i个超参数； $\operatorname{searchSpace}(p_i)$ 为该超参数的搜索范围。然后在参数空间中进行随机抽样，从空间中抽取一组随机参数组合。

\omega=\left(p_1^{\prime},p_2^{\prime},\cdots,p_n^{\prime}\right) \quad (15)

在测试足够多的随机抽样结果后，确定准确率最高的最佳参数组。

\begin{aligned} \omega_{\text{best}}&=\arg\max_{j}\left(P(\omega_1),P(\omega_2),\cdots,P(\omega_k)\right) \quad (16)\\ P_{\text{best}}&=P(\omega_{\text{best}}) \quad (17) \end{aligned}

其中 $\omega_j$ 为第j次随机抽样得到的超参数组合； $P(\omega_j)$ 为采用第j组随机参数的LSTM模型准确率；k为总试验次数； $\omega_{\text{best}}$ 为所有随机参数组合中准确率最高的参数组。

通过上述方法，结合早停、随机搜索参数优化方法和LSTM模型训练方法，已成功确定各省份独有的LSTM模型最优参数，并获得了未来数据的预测结果。

5 结论

本文基于中国各省份发展状况和环境承载力，结合近年AI发展态势，建立模型描述区域AI发展前景规模。确定了未来五年中国最适合发展AI的省份：江苏省、广东省、山东省、浙江省和四川省。通过观察江苏省AI发展水平和“生育力”发现，高AI发展水平不一定意味着高生育力。过于迅猛的发展可能导致生育力下降。因此，为保持未来AI发展势头，必须建立更好的碳排放处理机制或采用更清洁的能源结构。

研究还揭示AI发展具有区域带动效应。与AI发展水平较高地区相邻省份的“生育力”也会有所提升，这在安徽省表现尤为明显。此外，经济发展水平并不直接决定省份的AI发展生育力。AI的发展在很大程度上取决于充足的电力供应。如果一个地区能源受限且电力需求高，这可能成为AI发展的劣势，通过比较四川省和江苏省可见一斑。因此，在亟需发展AI的未来，以最小碳排放确保AI发展的电力供应是重要前提。

最后值得指出，AI发展并非总是对碳排放产生负面影响。当AI技术发展到足够程度时，它也可应用于能减少碳排放的技术，如发电[9]、节能[10]和废气处理等。但由于AI仍处于发展阶段，我们在其发展规划中应始终考虑AI发展引起的碳排放问题。

参考文献

[1] 朱鸣杰. AI应用或成引领产业变革新质生产力[J]. 上海工运, 2024,(06):52.
[2] Feng D, Shengnan Z, Jiao Z, et al. The Impact of the Integrated Development of AI and Energy Industry on Regional Energy Industry: A Case of China[J]. International Journal of Environmental Research and Public Health, 2021,18(17):8946-8946.
[5] 陈永伟. 超越ChatGPT：生成式AI的机遇、风险与挑战[J]. 山东大学学报(哲学社会科学版), 2023,(03):127-143.
[6] 石碧. 人工智能助推我国新时代经济结构转型升级的路径选择[J]. 西北大学学报(哲学社会科学版), 2019,49(05):14-20.
[7] 张晓顺, 李金成, 郭正勋. 大模型辅助的海上大型风电场集电系统拓扑优化[J]. 高电压技术, 2024,50(07):2894-2905.
[8] 丁力夫, 陈颖, 肖坦南, 等. 基于大语言模型的新型电力系统生成式智能应用模式初探[J/OL]. 电力系统自动化, 1-16[2024-08-01].
[9] 马光伟, 钟雨婷, 钟坚. 我国人工智能发展评价指标体系构建与实证测度[J]. 科技管理研究, 2023,43(18):55-61.
[10] 杨梦成. 中国人工智能产业评价指标体系研究[J]. 价值工程, 2021.

Donate