1. 引言
随着全球气候变化的加剧和极端天气事件的频发,有效的预防和应对自然灾害成为当务之急。利用快速发展的对地观测技术和大数据技术,可以实时监测气候变化、土地利用以及水资源状况,从而为地理环境预警系统提供强有力的支持。利用大数据技术对历史气候数据进行深入分析,能够识别出潜在的暴雨极端天气风险,并制定相应的应急预案。此外,结合中国地理位置差异对不同地区可能发生的暴雨灾害进行预测,可以有效帮助政策制定者优化资源配置,增强各地区的抗灾害能力。本研究不仅具有重要的科学价值,在实际应用中还对提高生态安全具有更深远的影响。
2. 中国降雨量时空演化特征分析
首先对数据集《中国大陆0.25˚逐日降水数据集(1961~2022年)》[1]和《中国0.5˚土地利用和覆盖变化数据集(1900~2019年)》[2] [3]进行预处理:对存在的缺失值进行插值处理以及采用Z-score (标准分数)对异常值进行分析处理,从而提高数据质量。
分析降雨量分布对理解降雨演化有着重要影响,下面结合时间和空间维度进行可视化分析。首先,从宏观角度分析中国年降水总量的变化趋势。对于降雨量数据的每一年,计算年降水总量:
(1)
其中,
为第i天的降雨量,n为一年中的总天数。
根据数据绘制年降水总量折线图,如图1所示(红色虚线为年均总降雨量线)。
通过图1可以看出,在1990~2020年间,中国年降水总量在2014年后呈上升趋势,年总降雨量均高于均线7319526.85 mm,说明近些年来强降水事件增加;从1990年以来的逐年全国降水总量来看,呈现明显的波动性,其中降水总量出现明显上升的年份分别为1998年、2010年,这和厄尔尼诺事件有紧密的联系。
Figure 1. Line chart of the total annual precipitation in China in 1990~2020
图1. 1990~2020年中国年降水总量折线图
经上述分析可知,降雨量随时间变化有着较大的不稳定性。由于中国地大物博,地形分布差异较大,地理空间对降雨量也存在着一定的影响,下面以“胡焕庸线”[4]将中国划分为东南和西北两个区域,分析“胡焕庸线”东西两侧月降雨量时序图,如图2所示。
Figure 2. Monthly rainfall trend chart on both sides of the “Hu Huanyong Line” in 1990~2020
图2. 1990~2020年“胡焕庸线”两侧每月降雨量趋势图
由图2可知,“胡焕庸线”东南侧地区月降雨量显著高于西北侧地区月降雨量。从人文角度考虑,“胡焕庸线”的东南侧人口密集,经济社会发展得更为迅速,对水资源的需求量也更大,降雨量大不排除人工降雨的干预;而西北侧由于降雨量少,地区经济以畜牧业和特色农业为主。从地形角度看,这可能是由于“胡焕庸线”的东南侧多为低山丘陵和平原,有利于水汽的抬升和积聚,降雨量相对较多;而西北侧则以高原和山地为主,对水汽的阻挡效果较强,降雨量相对较少。从气候角度来看,东南地区季风气候显著,湿润多雨;而西北地区主要是温带大陆性气候,干旱少雨[5]。
3. 暴雨灾害影响因素相关性分析
人类活动对自然环境造成了很大的影响,导致地球的气候模式发生改变,分析地形与气候条件的相互作用对暴雨天气形成的影响,有利于掌握暴雨灾害发生的内在模式,从而做出有效防范措施。
参考中国气象局和其他国际组织定义的极端降雨天气,定义如表1所示。
Table 1. Extreme rainfall weather standards
表1. 极端降雨天气标准
降雨情况 |
定义 |
样本标签 |
正常 |
24小时内降雨量0~50 mm |
0 |
暴雨 |
24小时内降雨量50~100 mm |
1 |
大暴雨 |
24小时内降雨量超过100 mm |
2 |
下面对数据集《中国数字高程图(1 km)》《中国0.1˚近地表气温数据集(1979~2018年)》《中国大陆0.25˚逐日降水数据集(1961~2022年)》《中国0.5˚土地利用和覆盖变化数据集(1900~2019年)》进行预处理,提取经度、纬度、耕地、林地、草地、灌木丛、湿地、高程以及日均温特征,对暴雨天气进行相关性分析,有利于分析特征间的相互作用及对降雨形成的影响。
经KS检验(Kolmogorov-Smirnov Test),数据集分布不服从标准正态分布,故使用Spearman相关性分析(Spearman Correlation Analysis)衡量变量之间的单调性,分别绘制出两种暴雨天气下不同特征间的相关性热力图,如图3所示。
(a) 暴雨天气 (b) 大暴雨天气
Figure 3. Spearman correlation coefficient heat map
图3. Spearman相关系数热力图
由图3分析可知:对于暴雨天气,高程和草地呈正相关,可能是因为高程地区由于地形的抬升,导致更多的降水,增加了暴雨的发生概率,进而为草地提供了丰富的水分;高程和经度呈负相关,二者之间的相互作用形成气候带差异和不同的地理特征,从而影响暴雨的形成。对于大暴雨天气,高程和灌木丛、经度和纬度之间存在相对较强的正相关,即地理位置和地形的相互作用对大暴雨的形成有着复杂影响;经度和日均气温、高程和经纬度与耕地之间有着较强的负相关。
4. 基于XGBoost的极端暴雨天气临界条件分析模型
由上述分析可知,暴雨天气受地理影响因素较大,其中高程线和经纬度特征相关性最强均表明了这一特点。为了分析极端暴雨天气发生的临界条件,选用集成树模型,因为其非常适合处理结构复杂的特征数据。通过其树形结构,能够识别并描述暴雨发生的临界条件,使其能够捕捉暴雨发生的关键特征与门槛值,比如气压、湿度、降水强度等。该模型不仅能够揭示出影响暴雨发生的具体因素,还能通过特征的重要性排序,进一步理解哪些特征对预测有决定性作用。
4.1. XGBoost算法介绍
XGBoost (eXtreme Gradient Boosting) [6]是一种基于梯度提升的集成学习算法,它用于构建决策树模型,并通过添加新的树来纠正前一棵树的错误。在XGBoost中,每棵树都是一个弱分类器,它们一起工作以提高整体模型的性能[7],本文基于该算法构建模型。
在决策树中,每个节点代表一个特征上的分割点,这个分割点的选择是基于能够最大化类别分离的原则。在分类问题中,这个分割点(或临界条件)通常是基于特征值的阈值。选择这个阈值的过程涉及计算不同分割点对模型性能的提升。
XGBoost使用贪心算法来选择分割点,具体步骤如下:
1) 计算增益:对于每个特征和可能的分割阈值,XGBoost计算分裂前后模型的性能增益。这个增益是基于模型的优化目标,比如准确率、对数损失等。
2) 特征重要性:XGBoost会考虑每个特征在数据集中的重要性。特征重要性可以通过统计方法(如Gini指数或信息增益)来评估。
3) 候选分割点:对于连续特征,XGBoost会考虑所有可能的分割点。对于分类特征,每个类别的值都可能成为一个分割点。
4) 遍历和选择:XGBoost遍历所有特征的所有可能分割点,并选择能够最大化增益的分割点。这个过程是贪心的,意味着它在每一步都选择当前最好的分割点,而不考虑未来可能的选择。
5) 分裂条件:一旦选择了最佳分割点,就会根据这个阈值将数据分为两部分。如果特征值小于或等于阈值,数据走左边的分支;如果大于阈值,数据走右边的分支。
4.2. 模型的建立与求解
选取temperature、contour、cropland、grass、shrub、forest、wetland、longitude、latitude共计9个特征作为自变量,以是否发生极端天气以及极端天气的类型作为因变量,建立基于XGBoost的极端暴雨天气临界条件分析模型,训练结果如表2所示。
Table 2. Accuracy of extreme weather critical conditions analysis model based on ensemble tree
表2. 基于集成树的极端天气临界条件分析模型精度
Model |
Accuracy |
F1 Score |
Precision |
Recall |
XGBoost |
0.97 |
0.86 |
0.98 |
0.96 |
通过对模型结果进行分析,提取出关键的临界条件和影响因素如下:
降雨量是模型中最核心的决策特征,根据降雨量是否低于47.252来分枝,这一阈值以下的降雨量直接被预测为常规降水;阈值以上的降雨量预测存在暴雨的可能;其次,经度作为地理位置的重要指标,当降雨量大于47.252 mm时,模型接下来通过经度小于96.919分枝。经度低于96.919的区域有大概率发生暴雨灾害。当降雨量超过99.991时,模型会进一步考虑纬度信息,如果纬度小于或等于25.945,则天气被分类为大暴雨;如果纬度高于25.945,则天气被分类为暴雨。
此外,当气温小于4.62℃时,将大概率预测发生极端暴雨天气。
5. 基于时空集成树的暴雨灾害预测模型
暴雨的形成不仅与单一时刻的气象条件相关,更与地理位置和时间的动态变化密切相关,因此,针对降雨量与经纬度之间的复杂非线性关系,基于神经网络的深度学习模型进行建模分析显得尤为重要,特别是卷积神经网络(Convolutional Neural Networks, CNN)和长短期记忆网络(Long Short-Term Memory, LSTM)的组合应用,因其独特的优势而被选用。
5.1. 算法简介
CNN是一种专为处理具有网格结构数据(如图像、时间序列、地理数据等)而设计的深度学习模型[8]。CNN通过卷积层、池化层和全连接层逐步提取输入数据的局部特征,特别擅长捕捉空间相关性和局部模式。这对理解和预测不同经纬度上的降雨量变化非常有启发。其算法原理如图4所示。
Figure 4. Convolutional neural network structure diagram
图4. 卷积神经网络结构图
LSTM是一种特殊的循环神经网络(RNN),特别适合处理和预测时间序列数据中的长期依赖问题。通过引入门控机制(输入门、遗忘门和输出门),LSTM可以有效控制信息流动,从而更好地适应暴雨预测任务中需要考虑的历史气象数据的影响,其算法原理如图5所示。
Figure 5. Structural diagram of the LSTM network [9]
图5. LSTM网络结构图[9]
5.2. 模型的建立与求解
CNN结构:包括多个卷积层和池化层,后接全连接层。卷积层用于提取输入数据的空间特征,池化层则用于减少参数数量,避免过拟合。根据实验效果调整卷积核大小、步长和层数等超参数,以找到最佳的特征提取能力。
LSTM结构:包含一个或多个LSTM层,每层由若干个LSTM单元组成。每个LSTM单元内部有输入门、遗忘门和输出门,这些门控单元共同决定了如何更新状态和产生输出。通过调整隐藏单元的数量、学习率等参数来优化模型性能。
通过滑动窗口对样本进行划分,主要考虑到样本的空间特征,使用统一框架对深度学习模型进行建模,其中将模型层分为分类和回归应对不同任务,按照[7:2:1]的比例划分训练集、测试集、验证集,其中对训练部分做了早停设置:Early-Stop,如果模型在训练过程中验证集上的损失连续20轮次没有下降,则模型退出训练;通过相关设置,建立模型对经纬度进行了训练和预测,得到回归模型评价指标结果,如表3所示。
Table 3. Evaluation index results
表3. 评价指标结果
Method & eval |
MSE |
RMSE |
MAE |
R2 |
CNN |
103.9335 |
10.1948 |
9.0235 |
−0.3348 |
LSTM |
82.2175 |
9.0674 |
7.7227 |
−0.0484 |
通过上述实验结果发现,经过分割的数据集样本量显著减少,导致深度学习模型无法捕捉深层次的时空关系,为进一步说明深度学习模型的训练情况,如图6所示为LSTM模型的预测经度折线图。
Figure 6. Line chart of latitude comparison in LSTM model prediction
图6. LSTM模型预测纬度对比折线图
由图6可以看出,过少的样本使得模型无法拟合复杂的曲线。
基于以上对于深度模型的研究,这里采用以梯度提升为主的集成学习模型,为了模型能够较好地学习复杂的非线性关系,通过时空依赖性对经纬度进行建模。选择XGBoost算法作为强学习器分别进行训练和预测,数据集按照[8:2]划分训练集和测试集,为了提高预测器的性能并避免过拟合,采用了网格搜索和交叉验证技术,其中交叉验证折数为5折,分析学习器在该数据集上的回归效果,预测指标如表4所示。
Table 4. Experimental effect table
表4. 实验效果表
Method & eval |
MSE |
RMSE |
MAE |
R2 |
LSTM |
6.8717 |
2.6213 |
1.4999 |
0.9097 |
通过网格搜索得到的最佳参数,将测试集的预测数据进行复合可视化,将经度预测值和真实值的预测可视化,如图7所示为XGBoost模型的效果可视化对比图。
Figure 7. Visual comparison chart of the effect of the XGBoost longitude prediction model
图7. XGBoost经度预测模型效果可视化对比图
由图7发现,集成学习模型能够较好地学习到降雨量与经纬之间的联系,模型实际预测较大降雨量的地区与原数据集高度相似。接着我们根据预测出的经纬度,使用降雨量数据在地图上绘点,对暴雨天气情况发生的经纬度坐标与预测坐标进行可视化分析,如图8所示。
Figure 8. Comparison chart of latitude and longitude coordinates prediction of rainstorm weather
图8. 暴雨天气发生经纬度坐标预测对比图
由图8可以发现,强学习器通过构建复杂的时空关系学习到了降雨量和经纬度之间的关系,也正是因为XGBoost极强的高度非线性关系的学习能力,使其能够对经纬度进行较为精确的预测。为了减少计算开销,我们又对采样的样本数据进行训练,模型无法预测较为离散的地区经纬度,因此我们的模型是合理的,随着可靠数据量的增加,该模型预测精度将会进一步提高。同时也说明,利用其他地理特征和降雨量对暴雨灾害进行建模,预报降雨情况的可靠性和实用性。
6. 结语
本文首先对中国降雨量进行时空演化特征分析,从时间维度看,中国年降雨量波动较大,但近年来国内气候变化加剧,极端天气频现,强降水事件增多;从空间维度看,“胡焕庸线”两侧降雨量差异显著,“胡焕庸线”东南侧地区月降雨量显著高于西北侧地区月降雨量。然后,为了探究暴雨灾害形成特征之间的相互作用,使用Spearman相关性进行可视化分析,发现暴雨形成受地理因素制约明显,对于大暴雨天气的形成,高程和灌木丛、经度和纬度之间存在相对较强的正相关,即地理位置和地形的相互作用对大暴雨的形成有着复杂影响;经度和日均气温、高程和经纬度与耕地之间有着较强的负相关。
随后,基于XGBoost算法构建极端暴雨天气临界条件分析模型,识别并描述暴雨发生的临界条件,结果显示该模型精度较高,准确率达97%,并且发现降雨量是模型中最核心的决策特征,经度是地理位置的重要指标,在极端暴雨天气形成过程中,气温也存在重要影响。
最后,基于神经网络的深度学习模型进行建模分析,发现难以捕捉降雨量与时空的深层次关系,因此,结合XGBoost算法进行改进,从而构建基于时空集成树的暴雨灾害预测模型,通过与实际降雨经纬度分布对比,本文构建的集成学习模型能够精准捕捉降雨特征,学习到降雨量和经纬度之间的关系,为实现对不同地区的极端暴雨天气灾害进行精准预测筑牢根基,为各地区提前布局、精准施策提供可靠依据,推动我国防灾减灾事业迈向新高度。