Interval Prediction Model of User Number Based on Time Series
To address the prediction problem of the number of user reports in the Wordle game, an ES-ARMA model was established by integrating exponential smoothing and the statistical time series prediction ARMA model, utilizing the temporal characteristics of user data. The statistical properties of this model were analyzed, and an interval prediction method was provided. Furthermore, to validate the effectiveness of the proposed method, traditional time series models such as ARIMA, deep sequence prediction network models like LSTM, and Boosting ensemble machine learning models like XGBoost were selected for comparative analysis. Four evaluation metrics, namely MSE, RMSE, MAE, and R 2, were used for method evaluation. Ultimately, the experimental results on these four metrics indicated that the ES-ARMA model’s predictions of the number of user reports in the Wordle game were more consistent with the actual results, thereby fully demonstrating the model’s effectiveness. Based on this, the prediction interval of the number of user reports on 2023-03-01 at a 95% confidence level was theoretically provided. Additionally, the characteristics and effectiveness of different models were analyzed, offering valuable references for model selection in other regression prediction problems.
Regression Prediction
Wordle源自2023年美国大学生数学建模竞赛C题
目前常用的时间序列数据预测方法主要包括经典统计时间序列模型、机器学习模型及近年来流行的深度学习模型。然而,这些模型在实际应用中往往面临预测准确率不高、参数调整复杂以及预测时间较长等挑战。经典统计时间序列模型如
针对上述挑战,本文创新性地提出了一种融合指数平滑与ARMA优势的集成模型(ES-ARMA)。该模型充分利用指数平滑在趋势和季节性特征提取方面的优势,结合ARMA模型对自相关结构的精确刻画能力,不仅显著提升了预测精度,还有效降低了模型复杂度和计算开销。实验结果表明,相比传统统计方法、机器学习模型和深度学习方法,ES-ARMA模型在预测准确率和计算效率两个维度上均实现了显著提升。
时间序列是一组按时间顺序排列的观测数据集合,其核心特征在于数据之间存在显著的时序依赖关系,历史数据中蕴含着未来变化的内在规律。这些规律通常可以分解为趋势性、季节性、周期性和随机性等基本成分。为提升模型的可解释性并深入理解各成分对预测结果的影响机制,本研究采用时间序列分解方法,通过对不同成分的独立建模来提高预测精度。
在时间序列分解方法中,主要包括加法模型和乘法模型两种范式。通过对数据特征的深入分析发现,由于随机项中存在零值,使得乘法模型所依赖的比例关系无法维持。此外,加法模型不仅能够更好地体现各组成部分之间的独立性,还便于后续的模型构建和参数估计。基于上述考虑,本研究选择加法模型作为时间序列分解的基本框架。其具体模型表示为:
(1)
其中,T是趋势项,S是周期项,R是随机项。通常在分解时会将季节项S [t]和周期项C [t]和成一项,因为他们都是用于表示时间序列数据的一种周期性,因此用加法模型对数据分解得到的每项结果如
从
时间序列的平稳性是指序列的统计特征(如均值和方差)在时间维度上保持稳定,不存在系统性变化。这一性质确保了序列的基本特征具有时间一致性,使得基于历史数据构建的统计规律能够有效地推广到未来预测。在实践中,平稳性检验通常采用单位根检验(Augmented Dickey-Fuller Test, ADF)。平稳性检验可转化为单位根检验问题:若序列 不存在单位根,则可判定该时间序列具有平稳性。其中 的定义如下:
(2)
检验假设表示为:
(3)
如果拒绝 就说明没有单位根。使用统计量:
(4)
其中, 为 的最小二乘估计,当ADF足够小时拒绝 。
本文首先对原始时间序列进行分解为趋势项和其他项,将趋势项通过指数平滑进行建模,将其他项通过ARMA模型进行建模,最后将结果累加形成ES-ARMA模型。为了验证模型的有效性,又选取了ARIMA,XGBoost和LSTM模型与其进行对比,并通过检验指标进行检验,具体的工作流程如
(1) 指数平滑ES (Exponential Smoothing)模型
指数平滑是一种常见时间序列数据预测方法,常用的指数平滑方法有一次指数平滑,布朗单一参数指数平滑,霍尔特双参数指数平滑等方法,本文选择了较为常用的布朗单一指数平滑法,其计算公式如下:
(5)
其中, 是平滑常数,通常来说α越接近1,指数平滑拟合效果越好,平滑效果越差。
(2) 平稳时间序列预测模型
经典平稳时间序列预测模型包括AR (Auto Regressive)自回归模型,MA (Moving Average)移动平均模型,ARMA (Auto Regressive Moving Average)自回归移动平均模型,ARIMA (Auto Regressive Integrated Moving Average)自回归综合移动平均模型
这些模型的数学表达式如下:
(6)
(7)
(8)
由于 模型的前提是数据平稳,因此 模型是基于 模型数据非平稳时的优化处理,该模型将数据进行差分化处理直至数据平稳,其基本原理是利用差分的方法对时间序列数据的趋势性进行消除,其中d是差分次数。
指数平滑模型仅能刻画趋势项,对随机项和周期项的表现不足,导致预测结果波动偏小。而ARIMA模型通过差分处理会破坏随机项特性,使统计特征复杂化。为解决传统模型所出现的问题,本文提出了一种集成ES和ARIMA模型的方法,有效地解决了上述所提到的传统时间序列模型存在的问题。
因为数据经历ES模型处理过后会变得平滑,此时可以将其看为时间序列数据的趋势项,我们将平滑后的时间序列数据记为 , 可以用来很好的描述原始时间序列数据的趋势项。此时,我们将原始数据 减去指数平滑后的数据记为 ,即 ,用 作为原始数据使用ARIMA模型进行预测,由于去掉了一个趋势项,往往数据呈现平稳性,不需要进行差分处理,这样就消除了上述差分化方法所存在的问题,最后再将预测值加上之前去掉的趋势项 ,作为最终的预测结果。
在ES模型参数选择中,平滑系数α的取值直接影响模型对趋势项的刻画能力。当α趋近于1时,模型虽然能够较好地拟合原始数据,但会过度保留季节性波动和随机扰动成分,这不利于后续对残差序列进行平稳性建模。相反,当α趋近于0时,模型的平滑效果过强,导致对原始数据特征的捕捉不足,从而降低预测精度。因此,α的选择需要在趋势提取和噪声过滤之间取得平衡,以确保模型的有效性。取α = 0.1, 0.5, 0.9得到指数平滑的效果如
通过定量分析不同值对模型性能的影响:
1) α = 0.1时,MSE为67824531.2,趋势捕捉不足;
2) α = 0.5时,MSE为52593276.4,达到最优平衡;
3) α = 0.9时,MSE为61247893.5,过度拟合短期波动;
基于上述分析结果,选择α = 0.5作为最优平滑常数。
(1) 自相关分析法
为了找出适合于原始数据的模型,我们使用自相关分析法研究时间序列的自相关函数(Autocorrelation Function, ACF)和偏自相关函数(Partial Autocorrelation Function, PACF),以此来识别平稳模型类型并初步确定模型阶数。其中自相关函数估计 和偏相关函数估计 的计算方式为:
(9)
(10)
自相关函数是描述时间序列在不同滞后阶数上相关性的完整度量。它综合反映了序列中的趋势性、季节性、周期性以及随机成分等多个方面的相关结构。从本质上看,ACF刻画了序列中任意两个观测值之间的总体相关性,这种相关性既包含直接关联也包含通过中间项产生的间接关联。偏自相关函数则专注于衡量序列与其特定滞后项之间的纯净相关性,它通过消除所有中间滞后项的影响,揭示了观测值 与滞后k阶项 之间的直接关系。具体而言,PACF测度的是在控制了较短滞后项影响后,序列与特定滞后项之间残余的相关程度。
在AR模型当中,不能直接使用ACF图进行检验,因为即使对于过去很多的滞后项,也就是p值非常大时,也会产生良好的相关性,此时ACF值也是很大,而此时由于特征过多,甚至会遇到多重共线性等问题。而PACF则不存在这种问题,因为它删除了滞后已经解释的成分,此时我们只得到了与残差相关的滞后,当p高于滞后项的个数时,PACF值会急剧的下降,因为之前的滞后项可以很好的捕获模型的变化,并不需要更多的滞后项。
MA模型是序列残差项的线性组合,并且时间序列的滞后项不能直接解释当前项,这时PACF就失去了其最重要的特征。另一方面,由于一个MA模型并没有季节性或者趋势项的成分,因此ACF只会捕捉到由于残差项带来的相关项,因此,当q高于模型阶数时,自相关图会产生拖尾现象。
基于上述分析,可以将模型ARMA (p, q)的ACF和PACF变化趋势理论总结如
自相关函数 |
偏自相关函数 |
模型定阶 |
拖尾 |
p阶拖尾 |
AR (p)模型 |
q阶拖尾 |
拖尾 |
MA (q)模型 |
拖尾 |
拖尾 |
ARMA (p, q)模型 |
(2) BIC信息准则法
对于样本自相关函数和偏自相关函数均存在拖尾的情形,信息准则能够起到很好的识别作用。Akaike在1976年提出BIC信息准则
(11)
根据推导,其具体的数学表达式为:
(12)
因而,利用BIC准则进行模型定阶可以表示为如下规则:
(13)
为了进一步突出ES-ARMA模型在Wordle单词报告数据集上的预测效果,本文选取了传统统计学模型、集成机器学习模型、和深度网络模型三大常用于时间序列数据预测的模型对Wordle单词报告数据集进行预测,将预测效果与ES-ARMA模型进行对比。
ARIMA模型是描述平稳随机序列最常用的一种模型
近年来,递归神经网络(Recurrent Neural Networks, RNNs)由于其强大的时序建模能力而被广泛应用于时间序列预测领域。其中长短期记忆(Long Short-term Memory, LSTM)神经网络由于避免了梯度消失和爆炸的问题,成为RNNS最成功的变体之一
长短期记忆网络(Long Short-Term Memory, LSTM)是递归神经网络(RNN)的一种高级变体,通过创新性地引入记忆单元和门控机制来增强网络的长期依赖学习能力。其核心架构包含细胞状态和三种门控单元:遗忘门、输入门和输出门
LSTM当前时刻的隐藏层输出
和细胞状态
由上一时刻的隐藏层输出
、细胞状态
与当前时刻的输入
协同决定。LSTM的创新之处在于,随着细胞元状态
从左至右贯穿LSTM结构,序列数据先经过遗忘门筛选掉部分信息,再通过输入门添加需要新增的数据,而长期状态
直接输出。在LSTM结构的每个节点,不断有数据筛选和增加,并且可以通过输出门结构来判断长期状态中的有效信息和无效信息,进行过滤进而形成短期状态
。然后,依据训练出的LSTM模型可以对未来用户报告数量进行预测。具体结构见
时间序列预测可视为基于历史数据的回归问题。Boosting作为一种重要的集成学习方法,最初由Schapire提出
用机器学习Boosting算法对未来数据的预测主要是基于对现在数据中隐藏的规律进行学习,依照学习的模型对未来进行预测
XGBoost算法是陈天奇在针对GBDT算法要求巨大计算能力的这个问题下在原有梯度提升算法做的进一步改进,其通过二阶泰勒展开和正则项展开优化,解决了GBDT的计算复杂度和过拟合问题。本文选取XGBoost这种常见的Boosting模型作为数据驱动的对比模型。
图5. ACF和BCF定阶变化图
(1) ACF和PACF
通过计算差分后的数据,得到ACF和PACF的变化如
(2) BIC准则
基于2.3.2的定阶方法,可以得到ARMA模型BIC热图如
相比于我们提出的ES-ARMA模型,传统的ARIMA模型是用差分法来使时间序列数据变得平稳,然后在进行回代求解。对差分数据进行ADF检验,得到检验结果如
ADF |
p值 |
置信区间(5%) |
|
原始数据 |
3.8667 |
0.0023 |
−2.87 |
一阶差分数据 |
4.2418 |
0.0006 |
2.87 |
图7. 数据预测图
如
在对比模型中,XGBoost模型在峰值区域表现出对局部波动的良好拟合能力,这可能归因于其丰富的模型参数能够更好地捕捉数据中的微小波动与扰动。然而,该模型存在波峰预测偏移和整体曲线波动过大的问题,表明模型可能过度拟合了训练数据中的局部特征,从而影响了其整体预测效果。这一现象也反映出在时序预测任务中,模型的泛化能力与预测稳定性同样重要,具体结果如
为了便于进一步分析不同模型预测效果的好坏我们引入四种评价回归模型的指标,并对不同模型的回归指标进行分析。
均方误差是回归模型评价最常用的指标,其由于是平方项构成而是凸函数,便于进行优化求解,MSE值越小表示模型越好,其定义如下:
(14)
当数据的数量级比较大时,MSE往往会过大,不利于比较,均方根误差在保留均方误差的特性同时,能有效降低评价指标的数量级,RMSE越小表示模型越好,其定义如下:
(15)
平均绝对误差用来衡量预测值与真实值之间的绝对误差,MAE越小表示模型越好,其定义如下:
(16)
决定系数能够有效的评价模型选用的准确度,取值越接近1,表示模型的回归效果越好,其定义如下:
(17)
实验设置:题目给定的数据集共有365个时刻点数据,将前80%数据作为训练集,后20%作为测试集。将上述四种模型在训练集上进行训练,通过比较四种误差评价指标,各个方法的始终对比指标结果如
由
对比方法 |
MSE |
RMSE |
MAE |
R2 |
ARIMA |
52593276.4 |
7252.12 |
4298.20 |
0.9934 |
XGBoost |
57114838.3 |
7557.44 |
3797.04 |
0.9928 |
LSTM |
164,388,482 |
12821.41 |
7279.33 |
0.9794 |
ES-ARMA |
29310721.4 |
5423.17 |
3262.01 |
0.9967 |
提升比例 |
44.27% |
25.22% |
13.18% |
0.33% |
由于在ES-ARMA模型中ES模型是对趋势项建模,如果 是正态序列,其本身的随机性还是来自ARIMA模型,因此在计算预测区间时方差只ARIMA模型的方差。如果
则 作为 的线性组合服从正态分布 ,
(18)
得到 置信度为0.95的预测区间: ,其中
(19)
其中 递推的顺序是
(20)
通过对上述模型求解,最终得到2023-03-01时的用户报告数量区间为:
(1) 兼顾传统统计模型与机器学习、深度学习等数据驱动模型,选用四种模型评价指标从多角度去评价模型的性能,进一步突出了本文所设计的ES-ARMA模型的实际意义。
(2) 对结果及其产生原因进行了一定的理论分析,虽然集成机器学习模型和深度神经网络都有着较复杂的网络结构和大量参数,但在本文较少的数据量中,传统的统计模型却展现着更好的性能,在一定程度上为其他预测问题提供了方向。
在ES-ARMA模型中,趋势项的建模方法可进一步拓展,如采用灰色预测、生长曲线甚至深度网络等方法进行对比分析。然而,由于数据样本量的限制,难以对复杂的深度网络模型进行有效训练。此外,模型中存在多个需要人工调节的超参数,这在一定程度上制约了模型的自动化分析能力。
本文基于时间序列分析方法,针对数据维度小、趋势项明显的特点,提出了ES-ARMA预测模型。通过与ARIMA、LSTM和XGBoost等模型的对比实验表明,ES-ARMA模型在全部四项评估指标上均展现出优越性能。研究结果表明,尽管基于数据驱动的复杂网络模型是当前回归预测领域的主流方向,但在特定场景下(尤其是小样本数据集),基于统计分析的时间序列模型可能更具优势,这为相关领域的研究提供了新的思路
*通讯作者。