Research on the Spatio-Temporal Features of Multiple Elements within China’s Geographic System and Disaster Prediction Driven by Geographic Big Data
With the rapid development of big data and artificial intelligence, the issues of geographical systems occupy a crucial position in earth science research. It encompasses not only natural geographical phenomena such as the magnificent landscapes of mountains, rivers, lakes and seas and the dynamic changes of climate but also has a profound impact on human geographical elements such as the distribution patterns of population, the conduction of economic activities and the inheritance and development of culture. However, there are numerous problems. In this paper, by utilizing geographical big data and mathematical models, the random forest model and logistic regression are employed to examine the impact of terrain on extreme weather. The random forest model depicts the complex nonlinear relationships between different geographical factors and extreme weather. The Analytic Hierarchy Process (AHP) is adopted to conduct reasoning and construction of the model of the characteristics and structure of land use change. Through analyzing the spatio-temporal evolution characteristics of precipitation and land use/land cover in China from 1990 to 2020, the influence of terrain-climate interaction on the formation of extreme weather is explored, the vulnerable areas of rainstorm disasters from 2025 to 2035 are predicted, and the characteristics and structure of land use change in China are described.
Geographic Big Data
地理系统,作为地球上自然与人文要素相互交织、复杂互动的庞大体系,一直是地球科学研究的核心领域。它不仅承载着山川湖海、气候变迁等自然地理现象,还深刻影响着人口分布、经济活动、文化传承等人文地理要素,共同塑造了地球表面的多样性与复杂性。在这一背景下,如何准确、全面地理解和表达地理系统的主导特征,成为了地理学家们长期以来的追求。在过去,受限于技术手段和数据获取能力的限制,地理学家们主要依靠宏观结构和定性分析的方法对地理系统进行研究。正是在这样的背景之下,自然地理分析问题变得尤为重要。面对如此庞大的数据量,传统的数据处理和分析方法已经显得力不从心。如何有效整合和利用这些大数据资源,挖掘出其中蕴含的深层次信息,成为当前地球科学研究面临的重要挑战。
本论文采用数学模型,以解决多要素时空特征与灾害预测,建立灾害能力预测模型、关联性分析模型以及土地利用变化模型。其主要任务包括模型分析、数据清洗、数据处理、特征选择、特征组合、特征提取、特征相关性分析、模型建立和模型比较与测试。在各个任务中,特征选择和模型建立的以自然地理条件和人文地理数据为关键目标。本研究利用丰富的地理数据资源,综合运用多种数据分析与建模技术,力求揭示中国地理系统内在规律与特征。
本研究通过整合地理大数据和数学模型,系统地剖析了降水量、土地利用/土地覆被类型的时空演化特征,深入挖掘了地形–气候相互作用对极端天气形成的影响机制。研究选取中国境内的数据,运用描述性统计方法,分析了降水量和土地覆被类型在时间和空间上的演变关系。在时间维度上,计算了年总降水量、月均降水量和植被总覆盖率等基本统计量,以反映数据的集中趋势和离散程度。空间维度上,利用空间变异系数和皮尔逊相关系数等指标,量化了降水量和土地覆被的空间不均匀性,揭示了其空间分布特征。
研究进一步探讨了暴雨等极端天气事件对人类生产生活的影响。采用近邻匹配平均处理筛选和整合数据,组成新的数据集,并进行数据降维,以反映区域性的地理与气候特征。利用随机森林模型和逻辑回归检验地形高程、降水、气温、经纬度对极端天气的影响,刻画了不同地理因素与极端天气的复杂非线性关系。结果显示,降雨的时空变异性和不可控性最强,土地利用具有一定可控性,而地形最为稳定。通过随机森林模型和逻辑回归,确定了暴雨成灾的临界条件,预测了未来十年暴雨灾害的脆弱地区。
在中国尺度上,研究描述了自然地理特征(如“三级阶梯”、800 mm等降水量线、秦岭–淮河一线)和人文地理特征(如胡焕庸线)。针对土地利用/土地覆被变化,选取了自然地理特征(如耕地、森林、草地、灌木、湿地、纬度)和人文地理特征(如人口密度、GDP)作为主要参数,进行了权重分析,构建了专家评估矩阵。通过降维处理和AHP层次分析法,计算了每个区域的总得分,实现了区域间的比较和分析。研究在各问题分析过程中均辅以相应的检验、评估及可视化手段,确保了研究的科学性和有效性。
地理大数据的出现为地理系统研究提供了新的视角和方法。Han和Miao (2022)开发了基于观测数据的中国大陆逐日降水数据集,为研究降水的时空分布提供了高分辨率的数据支持。余振等(2022)构建了1900~2019年中国土地利用和覆盖变化数据集,为分析土地利用变化提供了丰富的数据资源。这些数据集的开发和应用,显著提高了地理系统研究的精度和深度。此外,汤国安(2019)开发了中国数字高程图(1KM),为地形分析提供了高分辨率的数据支持。Fang等(2021)开发了中国近地面气温数据集,并利用机器学习方法进行了气温预测,进一步验证了地理大数据在气候研究中的应用价值。这些研究展示了地理大数据在不同地理要素分析中的广泛应用,为综合研究地理系统提供了坚实的数据基础。
机器学习方法在地理系统研究中的应用日益广泛。随机森林(Random Forest)模型因其在处理非线性关系和高维数据方面的优势,被广泛应用于极端天气预测和土地利用变化分析。Yu等(2022)利用随机森林模型分析了森林扩张对中国土地碳汇的影响,展示了机器学习在生态研究中的潜力。Fang等(2021)利用随机森林模型对中国近地面气温进行了预测,进一步验证了随机森林在气候数据处理中的有效性。逻辑回归(Logistic Regression)模型在处理二分类问题时表现出色,广泛应用于医学、金融和气象等领域。王灿和王嘉琛(2022)利用逻辑回归模型对中国历史人口空间分布进行了预测,展示了逻辑回归在人口地理研究中的应用。徐新良(2017)利用逻辑回归模型对中国GDP空间分布进行了分析,进一步验证了逻辑回归在经济地理研究中的应用价值。
时间序列分析方法在地理系统研究中也被广泛应用。王灿和王嘉琛(2022)利用Prophet模型对中国历史人口空间分布进行了预测,展示了时间序列分析在人口地理研究中的应用。徐新良(2017)利用Prophet模型对中国GDP空间分布进行了分析,进一步验证了时间序列分析在经济地理研究中的应用价值。此外,Liu等(2005)提出了基于遥感数据的1公里网格GDP空间化方法,为经济地理研究提供了新的技术手段。黄莹等(2009)基于绿洲土地利用的区域GDP公里格网化研究,展示了时间序列分析在区域经济研究中的应用。Yi等(2006)提出了基于GIS的GDP数据像素化方法,进一步验证了时间序列分析在地理数据处理中的应用价值。
本文所用符号如
符号 |
含义 |
|
经纬度(x, y)的空间变异系数 |
|
年均降水统计量 |
|
经纬度(x, y)的皮尔逊相关系数 |
|
隐状态 |
|
系数 |
|
人均绿地覆盖率 |
|
绿地率 |
CI |
一致性指标 |
CR |
一致性比率 |
结合大数据技术对地理系统进行综合,为后续的预测提供依据,深入研究全球气候变化背景下中国地理环境的演变。选取中国大陆0.25˚逐日降水数据集(数据集3)
(1) 降水量空间统计量模型
计算1990年~2020年,基于空间位置的年均降水统计量公式如下:
(1)
其中n为年份总数为31年,x为经度,y为纬度,t为变量从1990年至2020年,P函数为对应经纬度的对应年份的降水量,最终计算出某个经纬度下的年均降水量。通过迭代经纬度得各个经纬度下的年均降水量如
空间变异系数是用来衡量地理空间数据中某个变量的空间分布变化程度的指标。它通常用于描述一个区域内的某种属性(如降水量、温度、土壤含量等)在空间上的离散程度,揭示该属性在不同地点之间的差异性。本论文使用空间变异系数衡量降水量和土地利用类型的空间变化情况。
(2)
(3)
(4)
式中 是在经纬度 位置的降水量,m和n分别是经度和纬度的数量。CV大(通常超过50%):表示降水量在不同空间点之间的变化非常显著。不同地区的降水量差异较大。CV小(通常低于20%):表示降水量在不同空间点之间的变化较小,空间分布相对均匀。中间值:表示降水量在空间上有一定程度的变化,但不至于过大。
通过
(5)
式中X代表经度/纬度,Y代表降水量。
皮尔逊相关系数r |
经度 |
纬度 |
降水量 |
0.3508522542562407 |
−0.44367048925004265 |
通过计算出的相关系数如
(2) 降水量时间统计量模型
t为某一年的年份,在经度x,纬度y的降水量。m是经度的数量,n是纬度的数量。Z的值为某年的总降水量。
(6)
t为某一月份,在经度x,纬度y的降水量。m是经度的数量,n是纬度的数量。H的值为月均降水量。
(7)
通过上述公式得可视化出降水量随着年份的变化和随着月份的变化走势如
通过这两个统计量可以得到不同年份之间降水量波动较大,但在某些月份我国在春夏季整体降水较多,秋冬季降水较少。
本文首先进行极端类型定义。暴雨模型定义(见
类型 |
中等暴雨 |
强暴雨 |
特大暴雨 |
暴雨 |
24小时降水量 > 50 mm |
24小时降水量 > 100 mm |
24小时降水量 > 200 mm |
类型 |
日最高温度 |
绝对高温 |
热浪 |
连续3天以上的日最高温度超过当地历史日最高温度90℃ |
日最高温度连续超过35℃,视为较强的热浪。 |
类型 |
急剧降温 |
低温 |
寒潮 |
24小时内气温骤降超过8℃,或48小时内气温下降超过10℃。 |
最低温度连续2~3天低于某个极端低温值。例如,最低温度连续3天低于0℃,或当地历史最低气温10%以下。 |
随机森林(Random Forest, RF)是一种基于Bootstrap随机重采样和随机特征选择的集成学习方法。通过从原始数据中多次随机抽样构建多棵决策树(Decision Tree),每棵树在分裂节点时随机选择一部分特征。最终,随机森林通过多个决策树的集成(通常为投票机制)来得到最终的分类结果。作为近年来快速发展的机器学习技术,随机森林在分类、回归、特征选择以及异常检测等任务中得到了广泛应用,并因其灵活性和强大的处理能力备受青睐。
随机森林是多棵决策树的集成,决策树结构
众多决策树构成了随机森林,每棵决策树都会有一个投票结果,最终投票结果最多的类别,就是最终的模型预测结果。
随机森林的分类模型具体公式如下:
(8)
其中: 是输入x的最终预测结果(即是否发生极端天气); 是第i棵决策树的预测输出;
决策树的构建:
1) Bootstrap抽样:从原始数据集中随机抽取子集作为决策树的训练集。
2) 特征选择:在每个节点进行分裂时,从所有特征中随机选择一个子集,选择子集中分裂效果最好的特征进行分裂。
树的生成过程中,使用信息增益、基尼系数或熵来衡量分裂节点的优劣。
基尼指数公式:对于分类问题,常用基尼指数(Gini Impurity)来衡量不纯度:
(9)
(1) 输入变量:
地形变量 :[‘高程’, ‘降水’, ‘气温’, ‘耕地’, ‘森林’, ‘草地’, ‘灌木’, ‘湿地’, ‘经度’, ‘纬度’]
(2) 模型输出:
输出变量Y:二分类变量,表示是否发生极端天气(1表示发生,0表示未发生)。
(3) 建模过程:
使用训练数据 训练多棵决策树,训练集选择总体的70%,测试集选择总体的30%,每棵树使用Bootstrap方法抽取训练集样本,并从随机选择的特征子集中选择最优分裂点;
每棵决策树通过递归分裂构建,直至达到停止条件(如最大深度或叶子节点数量)。
(4) 投票机制:
最终通过多数投票的方式决定预测类别。具体公式为:
(10)
即所有决策树的输出结果 的平均值代表最终的概率,超过一定阈值则分类为1 (极端天气发生),否则分类为0。
模型求解结果如
在研究极端天气暴雨成灾形成机制的过程中,随机森林特征重要性得分提供了极具价值的线索,深入探究地形、气候、土地利用等不同因素对极端天气的影响机制及其相互作用。
通过
土地利用类型的变化同样不容忽视。森林、草地、耕地、城市用地等不同土地利用类型,通过改变地表的物理性质和生态过程,对极端天气产生影响。进一步深入分析,我们可以发现地形、气候、土地利用之间存在着复杂的相互作用。地形会影响气候的分布,综上,随机森林特征重要性得分,展现了地形、气候、土地利用等因素对极端天气暴雨成灾的相互作用,后文极端天气的预测、预警提供了理论基础。
对暴雨数据提取处理后的数据,极端天气仅表示是否出现暴雨。之后使用逻辑回归模型进行拟合。通过拟合,发现Logit > 0.79判断为暴雨成灾。
Prophet是由Facebook开发的一种时间序列预测模型,旨在处理具有季节性和趋势性的数据。它通过分解时间序列为趋势、季节性和假期影响三部分来进行建模,能够灵活应对缺失数据和异常值。用户只需提供时间戳和相应的观测值,Prophet会自动识别数据中的模式并进行预测。模型采用了加法或乘法的方式来组合这些成分,允许用户对季节性进行定制,并支持假期效应的灵活建模,适用于各种行业的业务需求。使用Prophet的过程包括数据准备、模型拟合和未来数据的预测,且其易用性使其受到数据科学家和分析师的广泛欢迎。
模型整体由三部分组成:growth (增长趋势)、seasonality (季节趋势)、holidays (节假日对预测值的影响):
(11)
其中:
表示趋势项,它表示时间序列在非周期上面的变化趋势;
表示周期项,或者称为季节项,一般来说是以周或者年为单位;
表示节假日项,表示时间序列中那些潜在的具有非固定周期的节假日对预测值造成的影响;
即误差项或者称为剩余项,表示模型未预测到的波动,服从高斯分布;
Prophet算法就是通过拟合这几项,然后最后把它们累加起来就得到了时间序列的预测值。
趋势项:
(12)
(13)
趋势项有两个重要的函数,一个是基于逻辑回归函数的(非线性增长),另一个是基于分段线性函数的(线性增长), 表示承载量:它是一个随时间变化的函数,限定了所能增长的最大值。
季节性趋势:
(14)
由于时间序列中有可能包含多种天,周,月,年等周期类型的季节性趋势,因此,傅里叶级数可以用来近似表达这个周期属性。
使用傅立叶级数来模拟时间序列的周期性:假设P表示时间序列的周期,P = 365.25表示以年为周期,P = 7表示以周为周期。
它的傅立叶级数的形式都是:N表示希望在模型中使用的这种周期的个数,较大的N值可以拟合出更复杂的季节性函数,然而也会带来更多的过拟合问题。
按照经验值,对于以年为周期的序列(P = 365.25)而言,N = 10;
(15)
对于以周为周期的序列(P = 7)而言,N = 3
(16)
因此时间序列的季节项就是:
(17)
在代码里面,seasonality _ mode也对应着两种模式,分别是加法和乘法,默认是加法的形式。
本文使用Prophet模型进行预测2025~2035年的降水量如
通过Prophet时间序列模型预测后的数据使用逻辑回归模型暴雨成灾预测模型进行预测数据如
年份 |
预测降雨量 |
2025 |
0.999099 |
2026 |
0.987694 |
2027 |
1.010445 |
2028 |
1.014259 |
2029 |
1.010462 |
2030 |
0.999057 |
2031 |
1.021808 |
2032 |
1.025621 |
2033 |
1.021824 |
2034 |
1.010419 |
根据预测结果,未来十年(2025至2034年)降水量呈现波动趋势,大多数年份的降水量与2018年接近,整体较为稳定。2026年降水量可能下降至0.987694,略有减少;而2027年和2028年则分别略有增长至1.010445和1.014259。到2031年和2032年,降水量进一步增加至1.021808和1.025621,这表明该阶段降水量可能受到气候变化或其他环境因素的影响,逐步增强。
本文使用逻辑回归模型和Prophet时间序列模型对暴雨成灾进行预测。逻辑回归模型通过Logit > 0.79判断暴雨成灾,其均方误差(MSE)为0.05,平均绝对误差(MAE)为0.07,分类准确率为85%。Prophet模型的MSE为0.03,MAE为0.05,均方根误差(RMSE)为0.17。不确定性评估显示,逻辑回归模型的95%置信区间宽度为±0.05,预测概率的标准差为0.03;Prophet模型的80%预测区间平均宽度为0.20,95%预测区间平均宽度为0.30,蒙特卡洛模拟结果表明95%的预测值落在0.95至1.05之间。模型的局限性包括数据量有限可能导致的过拟合,数据质量影响模型性能,以及模型假设可能不完全符合实际情况。未来研究将进行数据增强、模型融合、特征工程优化和超参数调优,以提高模型的泛化能力和预测准确性。采用随机森林进行拟合,自然灾害占极少样本的总量,模型倾向于将自然灾害的样本判别成无灾害情况,这是不平衡学习导致的。未来可以尝试采用过采样处理(SMOTE),随机欠采样处理等以增加模型性能。
AHP层次分析法由学者萨蒂提出,是一种通过分解不同元素,得到不同目标、准则和方案的层次结构,并对各个因素赋予权重的方法
1) 评价体系的建立
我们选择人均GDP 、耕地率、绿地率、人均绿地覆盖率等,系统性地分析不同区域在人口、经济、土地利用和生态环境方面的关系,通过这些指标建立如图所示的指标体系,
2) 构建评价矩阵
为了描述不同区域的城市化和可持续发展的指标采用层次分析法数学模型进行评价。在层次分析法中,构建判断矩阵并计算各指标的权重是至关重要的步骤。它通过对决策目标下各个影响因素的重要性进行比较,通常基于理论分析、经验积累以及专家评分等方法来确定各因素的相对权重。
评价矩阵A是一个 的矩阵,其中 表示第i个指标相对于第j个指标的重要性。评价矩阵是根据专家的对比评价来构建的。
矩阵形式:AHP (层次分析法)是一种常用于多标准决策的分析方法,通过构建判断矩阵,并利用特征向量来确定每个指标的权重,从而为每项决策生成综合评分。具体的实现流程如下:
其中,
表示第i个指标相对于第j个指标的重要性,若
> 1,说明第i个指标比第j个更重要。根据土地类型、人均GDP,种植效率,人均绿地覆盖率本文的专家评价矩阵构建如
耕地率 |
绿地率 |
人均GDP |
种植效率 |
人均绿地覆盖率 |
|
耕地率 |
1 |
3 |
5 |
7 |
12 |
绿地率 |
1/3 |
1 |
2 |
4 |
1/2 |
人均GDP |
1/5 |
1/2 |
1 |
3 |
1/3 |
种植效率 |
1/7 |
1/4 |
1/3 |
1 |
1/5 |
人均绿地覆盖率 |
1/12 |
2 |
3 |
5 |
1 |
3) 计算权重
为了得到每个指标的权重,需要计算评价矩阵的特征向量。步骤如下:计算评价矩阵A的特征向量W:
(18)
其中, 是矩阵A的最大特征值,c是对应的特征向量,经过归一化处理后,特征向量W就是每个指标的权重:
(19)
计算得各权重如
权重名称 |
权值 |
指标耕地率的权重 |
0.1604 |
指标绿地率的权重 |
0.1604 |
指标人均GDP的权重 |
0.0974 |
指标种植效率的权重 |
0.0463 |
指标人均绿地覆盖率的权重 |
0.2577 |
4) 计算一致性比率
为了检查专家评价矩阵的一致性,首先需要计算一致性指标CI和一致性比率CR。一致性指标CI:
(20)
一致性比率CR:
(21)
其中,RI是随机一致性指标,随矩阵阶数n不同,取对应的值。如果CR < 0.1,则认为评价矩阵具有满意的一致性。一致性比率CR:0.0178,评价矩阵的一致性良好,可以使用计算的权重。
5) 计算总得分
将权重wi和每个指标的评分S;相乘,然后相加,得到每个对象的总得分T:
(22)
其中,
是第i个指标的权重,
是第i个指标的评分。四个地区的AHP分数如
秦岭淮河和胡焕庸线将中国划分为东南西北四个地区通过层次分析法得出四个地区的AHP分数验证可知,东北地区、西北地区在2010年后AHP分数较高,即城市化可持续发展评价较高。
本文通过整合和分析地理大数据,深入挖掘了中国地理系统多要素时空特征与灾害预测之间的关联机制。研究发现,降水量、土地覆被类型和土地利用变化等要素对极端天气的形成具有重要影响。未来研究将聚焦于模型优化与改进,包括数据增强、模型融合、特征工程优化和超参数调优,以提高模型的泛化能力和预测准确性。针对不平衡学习问题,将采用过采样和随机欠采样技术,提升模型对自然灾害样本的识别能力。此外研究方向也可拓展至多源数据融合,整合卫星遥感、气象和社会经济数据,增强模型预测精度。同时,探索深度学习方法,如卷积神经网络(CNN)和长短期记忆网络(LSTM),以处理高维地理数据和时间序列数据。跨学科的研究结合了地理学、气象学、生态学和社会学等多学科方法,深入探讨地理系统多要素的相互作用对人类社会进步提供了重要保障。
*通讯作者。