1. 引言
环境污染是一个较为突出的社会问题,在环境污染中,空气质量又是其重中之重,空气质量的监测对环境治理、污染评估、降低危害具有重要的指导意义[1]。对于空气质量的量化评价,目前通常用空气质量指数(AQI)作为量化指标。现实中,建设空气质量监测站点及其后续维护成本很高,因此监测站点的数量十分有限,这导致对空气质量在整个地区的量化指标产生一定的误差,于是对片区的空气质量指数估计是一个不小的挑战。传统数值方法更多的是在二维上进行,随着学科发展,在空间范围上的插值也有了不少的方法,如最近邻插值法、反距离权重插值法。
关于空气质量的影响研究一直是一个热点问题,主流上多为就经济与气象因素来考察对空气质量的影响。自Grossman和Krueger (1991年)创造性地将库兹涅茨曲线运用于环境问题中,并提出了环境库兹涅茨曲线(EKC曲线)后[2],大量涌现了环境质量与经济发展的文献,而在空气因素分析上更多的是探究二氧化碳与经济的相互关系,少有关于空气质量的探讨。此外,EKC曲线的理论探讨也在不断的深入,Grossman和Krueger则是认为经济增长、研发支出与技术提升、经济结构三种途径会影响空气质量。
大规模数据问题使得人们对变量间的相关性研究兴趣大增,同时大p小n的结构建模问题在概念与计算上挑战了现代统计科学,高斯图模型的出现为解决这类问题提供了一个新的选择,并以一个可视的形式让我们得到一个相关图来得出变量间的相关关系。高斯图模型的应用也历经几个阶段的发展,大多应用集中于基因研究之中。最早在2000年,Waddell和Kishino将图模型结合聚类分析运用于基因表达数据的研究[3],此时数据仍在n > p的小数据范围内。2004年,Bühlmann与Wuille用低阶条件独立图来推断基因网络[4]。而于2004年,DOBRA首次将稀疏的图模型运用于基因表达数据的探究[5]。同时随着图模型理论的发展,特别是2006年,Bühlmann和Mainshausen创造性地用lasso回归引出了结点间偏相关的稀疏性[6]进一步推动高斯图模型的发展。
本文利用基于图lasso算法的多元正态图模型(The Gaussian Graphical Models,简称GGM)方法来分析浙江地区空气质量变化的主要影响因素。GGM在方法上超越了一般的相关分析方法,如聚类分析,它能精准的定义变量间的相关关系。同时GGM放宽了高斯线性回归模型的条件独立限制,清晰解释了变量间的相依模式。此外GGM方法还可解决联立方程模型的识别过度问题。Dobra在2010年将该方法运用于经济增长的主要因素分析,且结果表明该方法较为有效[7]。
本文在利用有限站点数据的基础上,通过反距离权重插值对浙江地区范围进行空气质量指数分布的估计,在此工作上,利用图模型方法分析影响浙江地区空气质量的主要因素,并确定EKC曲线的形状。
2. 理论基础
2.1. 高斯图模型(GGM)
图模型或概率图模型(PGM)或结构化概率模型是一个概率模型,图表示随机变量之间的条件依赖结构。他们通常被用于概率论,机器学习和统计学(特别是在贝叶斯统计)中。图模型框架为复杂分布中结构的发现和分析提供了算法,可以简洁地描述复杂分布中的结构并提取非结构化信息,从而有效地构造和利用复杂分布中的结构。图模型的应用包括因果推理、信息提取、语音识别、计算机视觉、低密度对偶校验码的解码、基因调控网络的建模、疾病的基因发现和诊断以及蛋白质结构的图形模型。
基本的图模型包括有向无环图(或称Bayesian Network)、无向图(或称Markov Random Field)以及局部有向图(同时含有有向与无向,包括CRF, ChainGraph),显然两者区别在于是否用有向的边来表达变量之间的关系。不同的图结构也导致了它们在推断与建模方面的一些细微的差异。下面定义了图模型中的一种特殊模型。
图
,其中
为图中的结点,
表示图中的边,令
,
中的每个结点对应着一个随机变量。成对马尔可夫性质是指在给定其它结点的条件下,两个变量条件独立,可表示为:
(1)
当满足成对马尔可夫性质时,我们就有图中的边不存在等价于变量
与
条件独立。
对于高斯图模型(GGM) [8] [9],我们假定随机变量服从多元正态分布
,精确阵(逆协方差矩阵)
,在此假定下,
与
条件独立又等价于协方差阵相应的元素为0,即:
(2)
这样的结果也带来了对精确阵估计的相关方法的探究,精确阵的估计对精确阵的估计目前已经有不少的算法,Dempster [10]早在1972年便通过似然法来估计精确阵,此外Banerjee与Yuan等在2006年也对此法做出了改进。而在lasso横空出世后,也同样启发了精确阵的估计方法的创新。在2008年,N. Mainshausen和P. Bühlmann [6]首先用lasso来对精确阵进行估计,该估计可表示为:
(3)
该算法使得模型在噪声影响下更为稳定,同时使得精确阵具有了稀疏性。稀疏性即指矩阵中具有大量的0,且0也意味着变量之间的不相关,也对应于上面所述的两变量条件独立。此文中我们将用图lasso算法应用与空气质量因素的分析。
2.2. 环境库兹涅茨曲线(EKC)
环境库兹涅茨曲线是一个就环境质量与经济发展之间关系的假设:随着现代经济的增长,环境退化,各种指标趋于恶化,直到平均收入在发展过程中达到一定的水平。在其被提出后,环境质量与收入间关系的理论探讨不断深入,丰富了对EKC的理论解释。其中,Grossman和Krueger提出经济增长通过规模效应、技术效应与结构效应三种途径影响环境质量:1) 规模效应。经济增长从两方面对环境质量产生负面影响:一方面经济增长要增加投入,进而增加资源的使用;另一方面更多产出也带来污染排放的增加。2) 技术效应。高收入水平与更好的环保技术、高效率技术紧密相联。在一国经济增长过程中,研发支出上升,推动技术进步,产生两方面的影响:一是其他不变时,技术进步提高生产率,改善资源的使用效率,降低单位产出的要素投入,削弱生产对自然与环境的影响;二是清洁技术不断开发和取代肮脏技术,并有效地循环利用资源,降低了单位产出的污染排放。3) 结构效应。随着收入水平提高,产出结构和投入结构发生变化。在早期阶段,经济结构从农业向能源密集型重工业转变,增加了污染排放,随后经济转向低污染的服务业和知识密集型产业,投入结构变化,单位产出的排放水平下降,环境质量改善。
2.3. 反距离权重插值(IDW)
逆距离加权(IDW)是一种确定的多元插值方法,具有已知的离散点集。对未知点的赋值用已知点可用值的加权平均值计算。其插值计算是基于距离更远的观测值的贡献应该根据它们的距离而减少这一前提进行的。
令某个所需插值点
的值为
,这可以写成一个样本函数
,其中
,一个最普通的IDW插值函数为:
(4)
其中:
(5)
是一个简单的IDW加权函数,由Shepard [11]所定义,
表示一个被插值(任意)点,
是一个插值点(已知)点,
是衡量已知点到未知点的距离,它通常用某种距离规则所定义,在本文空间插值中使用的是欧式距离,
是被用于插值的已知点总数,p是一个正实数,被称为功效参数,通常取为1或2,本文插值均用2作功效参数。在插值过程中,对范围内离散点的搜索同样是一个值得考虑的问题,本文使用Kd-tree作为搜索算法。
3. 实验与结果
3.1. 实验数据
空气质量数据通过个人API获取,数据为自2017年5月1日至2021年12月31日浙江范围内47个站点空气质量监测站点监测到的AQI,以及同样时间段浙江地区共4个站点监测的气象数据(包括温度、风力、气压等)。其中AQI为逐小时数据,气象数据为月值数据。最后数据集中包含1,888,272条AQI数据和236条气象数据(AQI和气象数据存在部分缺失情况)如表1所示。经济数据上获取了2017年至2020年共4年的包括各地区研究与实验(R&D)经费支出与地区生产总值之比、人口数、生产总值等数据。
Table 1. Part of meteorological data set
表1. 气象数据集部分数据
区站号 |
时间 |
平均气温 |
平均气压 |
平均2分钟风速 |
日降水量 |
58457 |
201705 |
22.5 |
1005.9 |
2.2 |
15 |
58457 |
201706 |
24.7 |
1000.5 |
1.9 |
10 |
58477 |
201705 |
20 |
1007.6 |
2.1 |
16 |
58477 |
201706 |
22.6 |
1001.8 |
1.7 |
14 |
58659 |
201705 |
20.9 |
1008.2 |
0.6 |
22 |
58659 |
201706 |
25 |
1002.1 |
0.6 |
15 |
58752 |
201705 |
20.7 |
1007.2 |
1.9 |
19 |
58752 |
201706 |
24.6 |
1001.2 |
1.8 |
13 |
3.2. 浙江地区AQI分布估计分析
3.2.1. AQI空间插值
原始AQI数据集已知为逐小时数据,为对AQI逐年变化及大体分布探究,本文将对AQI逐小时数据转换为年均值数据,随后进行插值工作。由已知站点分布(部分数据见表2)及浙江经纬度范围确定对经度118.01˚~123.11˚,纬度27.02˚~31.22˚范围矩阵进行插值,插值经纬度间隔均为0.1˚ (为防止有边界站点存在导致误差,将插值矩阵范围拉大0.5˚左右)。随后利用现有数据及反距离权重算法(见模型部分)进行插值计算,得到逐年的AQI插值矩阵数据。
Table 2. AQI annual mean data of some stations
表2. 部分站点AQI年均值数据
监测点编码 |
监测点名称 |
城市 |
经度 |
纬度 |
2017 |
2018 |
1228A |
浙江农大 |
杭州 |
120.19 |
30.2692 |
88.896 |
81.567 |
1226A |
下沙 |
杭州 |
120.348 |
30.3058 |
93.305 |
82.384 |
1244A |
龙湾 |
温州 |
120.76 |
27.9747 |
65.267 |
64.079 |
1252A |
清河小学 |
嘉兴 |
120.744 |
30.7946 |
76.247 |
77.689 |
1256A |
台州环保大楼 |
台州 |
121.419 |
28.6542 |
63.782 |
62.614 |
1262A |
十五中 |
金华 |
119.647 |
29.077 |
81.103 |
75.915 |
1264A |
环保大楼 |
衢州 |
118.871 |
28.9404 |
70.359 |
65.565 |
1268A |
莲都小学 |
丽水 |
119.93 |
28.4586 |
65.037 |
62.865 |
1235A |
万里学院 |
宁波 |
121.56 |
29.8208 |
68.983 |
68.318 |
3.2.2. 浙江地区AQI分布可视化分析
为了将插值结果利用展示分析,我们需要将得到的插值矩阵进行可视化。空间数据映射至地理位置上,首先需要获取浙江省市界底图,在这里我们借助GADM开源地理数据网站获取了中国二级地理信息的底图文件,并利用meteoinfo来提取浙江省市界底图。底图按Cylindrical Equidistant (cyl)投影法投影着等经纬度的二维空间上,后续将插值矩阵依照经纬度映射至底图之上,并以色标来显示AQI大小。最后将底图之外矩阵经纬度范围内所映射得到的数据白化即成功展示了浙江地区AQI的整体分布情况。
通过对2017年~2020年数据重复插值并可视化得到图1,如图1所示,以年份来说,每年的空气质量分布情况大体相同,其中19年整体AQI下降明显,而于20年又回归往年水平。去除20年的显著下降来说,浙江南部地区色块颜色加深明显,初步推测南部空气质量可能渐渐往不好的情况发展,同样浙江北部地区颜色也有所加深,未能在发展的同时控制好空气污染。值得注意的是杭州淳安桐庐交界地区
Figure 1. Distribution of AQI in Zhejiang from 2017 to 2020
图1. 2017年~2020年浙江地区AQI分布
有一个明显区别于周围的良好空气质量区域,同样的衢州靠近金华地区也有类似区域,而两个良好空气区域有着缩小的趋势,与之相反的是,杭嘉湖交界区常年存在严重的空气污染问题,不乐观的是该区域有扩大趋势。以整体分布来看,浙江北部地区的空气污染问题较南部严重许多,整体AQI呈现从北向南递减的趋势,同时沿海地区符合我们的直觉,普遍有良好的空气质量。同时可以看到舟山地区常年都能保持最好的空气质量,这也与其地理位置密不可分。
3.3. 浙江地区空气质量影响因素分析
3.3.1. 经济、气象变量选择
在借鉴他人研究的基础上[12],选取降水量、风速、气温、湿度等作为其气象解释变量,同样在借鉴前人研究成果[13]和相关理论(如EKC曲线)的基础上,选取规模效应、技术效应与结构效应(见2.2关于EKC曲线的概念)相关经济因素作为其经济解释变量,具体包含:
1) 经济水平。许多国内外研究人员认为,AQI和经济水平并不是简单的线性相关,而是存在倒“N”型或是倒“U”型的EKC曲线关系,倒U的EKC曲线即指在经济水平比较低时,经济增长会使AQI上升,而当经济水平继续增长时,AQI又会下降,即促进空气质量的改善。本文选取人均地区生产总值来衡量经济水平的发展程度,并考虑其对数。此外经济水平也对应着规模效应的相关内容。
2) 人口规模。人口往往与各种指标息息相关,在人口较多的地区,所需要的能源往往更多,也因此为产生各类气体的大量排放,环境的污染也更加严峻,就前人研究来看,人口密度较之人口数量对环境污染的相关性会更高,通常在人口密度大的地区,污染会更加大,但同样由于人口密度高,对净化环境的诉求往往会更加强烈,于是也会随时间使得污染情况得到改善,以此使地区的空气质量得到优化。此外人口因素也属于规模效应类别中,因此选取人口密度作为其经济因素之一。
3) 产业结构。空气质量水平往往与地区的工业发展有很大的相关性,我国也正处于工业发展的关键时期,产业结构也是影响空气质量的重要因素,此外在发展时,经济往往会流向绿色型及知识密集型产业。因此,本文用第二产业产值占地区生产总值的比重以及第三产业产值占地区生产总值的比重作为其二经济因素来分析结构效应对应空气质量的影响。
4) 科技水平。高收入水平与更好的环保技术、高效率技术紧密相联。在一国经济增长过程中,研发支出上升,推动技术进步,产生两方面的影响:一是其他不变时,技术进步提高生产率,改善资源的使用效率,降低单位产出的要素投入,削弱生产对自然与环境的影响;二是清洁技术不断开发和取代肮脏技术,并有效地循环利用资源,降低了单位产出的污染排放。本文将规模以上工业企业研究与试验发展(R&D)经费支出作为经济因素之一来分析其对空气质量的影响。
5) 能源消耗。能源消耗会产生各种气体继而影响空气质量的优劣,本文选取能源消费弹性指数来研究能源消耗对空气质量的影响,能源消费弹性指数即研究了能源消费的增长较GDP增长的比重,说明了能源消费的效率,也由此可以衡量能源质量以此来研究对空气质量的影响。
以上指标的纵向长度为2017年至2020年宏观数据,数据来源于浙江省统计年鉴。
3.3.2. 气象因素分析
已知气象数据集仅为省内四个站点数据,难以代表地区的气象数据变量。于是本文在此处同样借助反距离权重插值来对数据进行加工,与AQI数据相同,将四个站点数据进行空间插值,其后对其插值矩阵求一个均值(即对每一个元素求和作分子,将矩阵元素个数作为分母),定义为这一地区一定时间的变量值。AQI数据处理与此法相同。
Figure 2. Model selection
图2. 模型选择
首先对所选变量进行模型选择,通过交叉验证来选择合适惩罚系数,经过多次迭代确定选择0.008作为模型的惩罚系数,如图2所示。并由此通过图lasso来估计精确阵得到图3。确立具体模型后由经过交叉验证所选择的图lasso模型构建AP聚类算法模型,拟合标准化后的AQI及气象数据,得到两个类别。聚类结果显示,AQI、降水量、气压及相对湿度聚为一类,也就是说,这四类在数值上有较强的相关性,即AQI与另三类存在一定的关联,但此结果并不保证AQI与类2无关,可以说与类1中其他变量有较大的相似性。而风速、日照时速与气温聚为一类,容易看到日照时数与气温的类别规划符合我们日常的理解,此外注意到风速与气温也有一定的相似性。AP聚类在此为初步的探索性,为后面构建可视化作准备。
Figure 3. Boolean exact array
图3. 布尔值精确阵
Figure 4. Gaussian diagram model of meteorological factors
图4. 气象因素高斯图模型
图3为由所选择的图lasso模型所估计出的精确阵,我们从2.1中图模型概念可知,精确阵为0即说明在其它变量下两者条件独立,也相对于二者不想关,反之则说明二者相关,于是我们将所得到的精确阵转化为布尔矩阵,并通过精确阵将模型可视化得到如图4所示的高斯图模型网络。从中我们可以知道,浙江地区AQI在气象上,与降水、相对湿度、气压、风速均相关。就相对湿度来说,发现到其与雾的出现有极强的相关度,王勇在2006年的研究中表明在相对湿度 > 90%时,雾出现的概率较低,此时能显著的清除大气污染物,同时在相对湿度介于80%~90%时,雾出现的概率大大深高,而其会不同的加重污染[14]。同时降水对PM2.5的水溶性离子有一定的削弱作用,降水量在一定程度上能有效的降低颗粒物浓度,但在降水较少时,却会使颗粒物浓度升高[15]。在气压方面,低气压时会使空气形成对流,当空气的对流又会加强空气污染物的扩散能力,但也加强了一定的空气自净能力。同时气温变化引起气压的变化又是另一个对空气质量产生影响的因素之一。由此我们可以知道,对于气象造成的空气质量的变化,考虑影响因素而做出人为的气象干预是有效改善空气质量的方法之一。
3.3.3. 经济因素分析
下面我们用高斯图模型算法对浙江地区空气质量的影响因素进行推断,在经济因素分析中,我们将AQI数据做年均处理,然后同样在空间插值后做一个地区空气质量指标。以此地区空气质量指标作为所探究的解释变量,同时选取3.3.1中所选择的经济变量来进行模型建立。本文建模计算均通过python实现。
Figure 5. Gaussian diagram model of economic factors
图5. 经济因素高斯图模型
如图5所示,我们得到了AQI关于经济因素的高斯图模型网络,可以看到AQI与人口密度、第二、三产业比重、人均国民生产总值、科技水平均呈现相关关系,说明经济的发展与空气质量的变化密切相关,而与预设不同的是,能源消耗变量并未表现为与AQI有明显的相关关系,这与所选取的能源消费指标可能有一定关系,或者说此指标未能体现了能源的排放为题。
4. 总结和展望
本文成功运用空间插值的数值分析方法解决了浙江地区空气质量监测站点少,且其离散的点分布难以估计整片地区空气质量指标的问题,并运用可视化的方法将插值结果以具体的形式呈现出来,以此我们知道了杭嘉湖地区的空气质量情况堪忧,尤其此地区的交界地带尤为严重,也发现了舟山地区常年保持着良好的空气质量,另外知道了浙南地区空气质量较浙北地区更加乐观。与此同时,本文也利用空间插值将地区指标进行处理,运用AP聚类与高斯图模型分析了浙江地区空气质量的主要影响因素,结果发现AQI指标与降水、相对湿度、气压和风速均有关联,同时该指标与人均GDP、产业结构、人口规模等变量相关联。
本文做出了以下几点创新:1) 创造性地将空间插值的方法运用于空气质量指标的空间估计,为地区的空气质量指标估计提供一种新的思路。2) 统计学习的发展催生了许多跨时代的算法,而本文将高斯图模型运用于空气质量,即环境方向的分析,为图模型的运用增添一个多的选择。3) 图模型建模中,创造的将AP聚类与图模型结合,并以此作为可视化的基础算法。此外本文仍存在如下的一些不足之处:1) 空间插值的估计在本文中仅利用经纬度数据进行插值,并假定其服从空间自相关性,而未考虑地理因素,如一些地形变化,周围环境因素,这是后续可以考虑之处,即引入地形数据库,对算法进行重构来进行AQI的空间分布估计。2) 对AQI指标影响因素分析的建模,即高斯图模型的建立,未能对其进行稳健性的评估,同时没有对环境随经济发展而变化的ECK曲线拐点进行估计,即未对未来发展得出有效的预测。