1. 引言
半参数模型拥有线性模型的直观性和非参数模型的灵活性而常被作为处理高维数据的重要工具[1] [2]。本文主要研究半参数模型中的部分线性可加模型(partially linear additive models,简记为PLAMs),是广义可加非参数回归模型的特殊类型和多元线性回归模型的推广[3]。PLAMs的估计和推断理论已有丰富的研究结果[4]-[7]。
在实际研究中,高维数据常有异质性表现,噪声变量的分布呈现重尾型或非对称尾型。分位数回归(quantile regression)是有效分析异质性的方法,在PLAMs框架下已有很多研究成果产出。Tadao [8]于2014年用核密度法近似非参数部分的部分线性可加分位数回归,使用两步估计的方法并得出估计值的渐近性质;Sherwood和Wang [9]于2016年提出超高维部分线性可加分位数回归,用带惩罚的分位数回归分析超高维数据的异质性并证明了估计量的渐进正态性。
虽然分位数回归受到研究者们的普遍关注,但其损失函数不光滑,在高维情形的计算负担过重。而非对称的最小平方回归(expectile regression) [10]因其具有光滑的损失函数,使得计算效率大幅提升,是分析异质性数据的另一重要工具,同时它也是风险分析领域的常用工具,在金融风险领域中受到关注[11] [12]。Fabian [13]等人于2013年提出部分线性可加expectile回归并得出估计值的渐近性质和Bootstrap置信区间;Zhao [14]等人于2019年提出高维部分线性可加expectile回归,并研究模型的估计与变量选择。
虽然expectile regression比quantile regression计算速度快,却易受异常值的影响造成较大的估计误差,远不如quantile regression稳健。可见expectile regression和quantile regression都是分析数据异质性的典型方法,但都存在不同的缺点。Man等人[15]等人2022年提出一种稳健的expectile回归,用Lipschitz连续局部平方的函数代替expectile regression损失函数的平方项,并调节能随数据自适应的参数
让偏差与稳健达到平衡,解决了quantile regression计算速度慢和expectile regression不稳健的问题又兼具了二者的优点,于是本文将此种方法推广到更加灵活的PLAMs。
本文主要研究高维部分线性可加稳健expectile回归模型。全文内容安排如下:第2节详细介绍部分线性可加稳健expectile回归模型(retire-PLAMs),第3节介绍带非凸惩罚的高维部分线性可加expectile回归及算法,第4节是数值模拟,第5节是实证研究,第6节是总结。
2. 高维部分线性可加稳健Expectile回归
2.1. 一类非对称的稳健平方损失
Newey和Powell [10]受quantile regression的启发于1987年提出expectile regression。设
是一个具有有限矩的随机变量,同quantile回归的中
quantile思想,Z的
expectile可被定义为
(1)
其中,
是非对称的平方损失。
时,有
,可见expectile regression是均值回归的不对称类型,expectile的命名也来自“expectation”和“quantile”的组合。expectile regression比quantile regression计算效率快,却不如quantile regression稳健,对重尾分布敏感,尤其是在高维情形。Man等人[15]于2022年提出稳健expectile回归,受文献[16]的启发用Lipschitz连续和局部强凸的函数替换expectile regression损失函数中的平方部分,让
作为平衡偏差与稳健的调节参数。对于
,令
,其中
要满足以下三个条件:
(i)
且对于所有的
有
;(ii)
且对任意的
都有
;(iii) 对于所有的
有
成立,其中
和
都是正常数。
满足上述条件的稳健损失函数有Huber损失:
,以及光滑近似Huber损失的函数,例如pseudo-Huber损失:
和
,smoothed Huber损失:
。本文选择以下函数作为稳健expectile回归的损失函数:
(2)
其中,
,
是能被数据自适应校准的稳健参数。一阶导和二阶导为:
2.2. 高维部分线性可加稳健Expectile回归
若第i个样本观察值为
,其中
为响应变量,
和
为解释变量,
是
维的向量,
可随n的变化发散,
是d维向量,d是固定常数,
。对于一个给定的分位水平
,本文考虑如下部分线性可加expectile回归模型:
(3)
其中,
是维数为
的线性回归系数向量;
是可加的非参数部分,
,并假设
;
为独立的随机噪声变量,满足
。模型(1)允许
随不同的
而变化,因此能得出给定
和
后
较全的条件分布情况,进而探究解释变量和反映变量之间更完整的关系[17]。
高维统计推断一般假设系数向量
是稀疏的,记
是系数不为零的变量下标集合,个数
,A在被估计前不是明确的,不失一般性地记
,其中前
个系数不为零而剩下的
个系数为零,记
为
矩阵,与重要线性变量相关的矩阵
是由X前
列组成的子矩阵,设
来自均值为0的分布,
,
。值得指出的是,允许
随着n增加,意味有更多的数据被收集时模型可随着信息量的增多而变化以更好地反映事实规律。针对非参数部分
,首先引入如下定义:
定义1 设m为正整数,
,
。
是
在
上m次可导且
满足阶数为v的Hölder条件的函数集合,即对于任意的
,都存在正整数C使得下式成立:
(4)
假设(1)中非参数部分的可加项
,
,另外
是阶数为
且在
上有
个均匀结点的标准化B样条基函数向量。Stone [4]和Schumarker [18]指出若满足上述假设条件,则
可以用B样条基函数的线性组合
拟合,且存在一个向量
,其中
,使得
成立。
当已知
中重要指标集合A时,给定
是,模型(1)中参数的稳健expectile回归估计为:
(5)
其中
代表
的行向量。
的oracle估计值为
,非参数部分
的估计值为
,记
,其中
,
,
,
,
。注意到
有中心化的步骤,是为了让其满足可识别条件
。
3. 带非凸惩罚的高维部分线性可加Expectile回归及算法
对实际数据进行分析时,通常不清楚维数为
的解释变量里哪几个
变量是重要的,在损失函数后加上惩罚项是筛选重要解释变量的常用手段。惩罚函数Lasso [19]由于其是凸函数便于计算和进行理论分析而倍受欢迎,但不可忽略其会过惩罚较大的系数而导致估计偏差较大的缺点以及设计矩阵需要满足一些较强的条件。相比之下,一些满足条件1的非凸惩罚可以解决Lasso的问题,例如SCAD惩罚[20]。
条件1 惩罚函数
对任意
具有表达式
,其中函数
满足:(i)
是在
上非降的函数且
;(ii)
在
上几乎处处可导且
;(iii) 若
有
。
SCAD惩罚和其一阶导数的表达式为:
(6)
(7)
其中
是固定参数,
。于是带非凸惩罚的高维稳健expectile回归的估计值可通过以下最优化问题求
(8)
但直接求解(8)会由非凸性而存在计算不稳定的问题,于是本文采用Zou和Li [21]提出的局部线性近似法,每次迭代的惩罚权重由上一次的迭代结果更新。记
为惩罚函数的一阶导,
为迭代的初始值设为0,
是软阀值函数,
是大于1的正数,
是第
次迭代的结果,第t次迭代的结果
由局部线性近似法转为下面的凸优化问题来求
(9)
其中
是非凸惩罚函数
在
处的局部线性近似。
本文运用两步算法,整体迭代的顺序是先得到不带惩罚的非参数部分的系数
,再求带惩罚的线性系数
,然后求调节参数
。其中非参数部分的迭代算法为经典的坐标下降法(GDBB) [22],带惩罚项的线性部分为Fan等人提出的Local Adaptive Majorize-Minimization算法(LAMM) [23]。具体算法描述如表1~3所示。
Table 1. Two-step algorithm
表1. 两步算法
算法1 两步算法 |
Step 1. Input
,
,
,
,
Step 2. 先求非参数部分的系数
,再求带惩罚的线性系数
(a) 非参数部分:基于
次的迭代结果
,通过以下求解最优化问题得到
:
(b) 线性部分: (b.1) 用第
次的迭代结果
计算第t次迭代权重
(b.2) 把(a)的计算结果
带入下面的最优化问题求解
:
Step 3. 把
和
带入下面几式中计算
,
,
和
Step 4. 如果
,
,那么令
,
,否则令
,返回step 2继续进行迭代 |
Table 2. Step (a) of Algorithm 1
表2. 算法1里的a步骤
算法1.1 Gradient Descent with Barzilai-Borwein Step Size (GDBB) |
Step 1. Input
,
,
Step 2.
. if
, then stop, return
; else Step3 Step 3. 计算
, where
,
, Step 4.
Step 5.
,,回到step 2 |
Table 3. Step (b.2) of Algorithm 1
表3. 算法1里的b.2步骤
算法1.2 Local Adaptive Majorize-Minimization (LAMM) |
Step 1. Input
Step 2. 基于第
次的迭代结果
,计算第k次迭代相关的权重:
Step 3. Initialize:
repeat: If
, then
until
, return
and
Where
,
,
Step 4. If
then
, otherwise
,返回step 2继续进行迭代 |
4. 数值模拟
本文分别研究了部分线性可加稳健expectile回归(retire-PLAMs)在不带惩罚的低维模型和带惩罚的稀疏高维模型两种情况下数值模拟的表现,在部分线性可加框架下让retire与不同的方法比较:(i) huber;(ii) 非对称最小平方回归(sales);(iii) quantile回归(qr)。各进行了100次随机模拟,采用以下准则来比较各个方法:
1) MSE:估计
的均方误差,即一百次模拟结果中
的均值。
2) AE:
的绝对估计误差的均值,即一百次模拟结果中
的均值。
3) AADE:拟合非参数的平均绝对离差的均值,即一百次模拟结果
中的均值。
4) TV:一百次模拟中正确地识别到系数为非零的线性解释变量的次数占比的均值。
5) FV:一百次模拟中错误地识别出系数为非零的线性解释变量的次数占比的均值。
4.1. 不带惩罚的低维模型
首先生成来自多元正态分布
的
,其中
,
。让
,
,
是标准正态分布的分布函数,
,
,响应变量
有以下回归模型生成,
(10)
其中
,
为截距,
可分两种情形,一是来自正态分布
,二是来自自由度为2.1的t分布,样本量n分为200和400两种情形,
水平分为0.5和0.8两种情况。
表4和表5分别展示了随机噪声来
和
的模型(13)在
时四种不同方法的拟合表现,可以看出随着样本量增加,所有模型的估计效果都有所改进,另外
时retire与huber估计结果相同,因为
时二者为同一个模型。表5可见随机噪声来自正态分布时,retire的估计误差是所有模型中表现最好的;表4显示随机误差来自t分布时,retire的估计误差比huber和sales小,比quantile的估计误稍大,原因在于quantile遇到异常值时是最稳健的,但是quantile计算速度比retire慢。总而言之,数值模拟验证retire-PLAMs在拥有稳健性的同时还具有计算效率高的优势。
Table 4. Comparison of the fitting performance of the four methods for model (13) with random noise from t(2.1) at
levels of 0.5 and 0.8
表4. 四种方法在随机噪声来自t(2.1)的模型(13)在
水平为0.5和0.8的拟合表现比较
|
|
n = 200 |
p = 10 |
|
n = 400 |
p = 10 |
|
|
method |
AE |
MSE |
AADE |
AE |
MSE |
AADE |
0.5 |
retire |
1.413 |
0.310 |
0.303 |
0.974 |
0.152 |
0.205 |
huber |
1.413 |
0.310 |
0.303 |
0.974 |
0.152 |
0.205 |
sales |
1.784 |
0.545 |
0.469 |
1.437 |
0.488 |
0.337 |
qr |
0.974 |
0.150 |
0.270 |
0.618 |
0.061 |
0.192 |
0.8 |
retire |
1.584 |
0.402 |
0.390 |
1.080 |
0.192 |
0.260 |
huber |
1.431 |
0.320 |
0.841 |
1.002 |
0.160 |
0.820 |
sales |
2.309 |
1.072 |
0.623 |
1.957 |
1.384 |
0.485 |
qr |
1.343 |
0.290 |
0.403 |
0.889 |
0.130 |
0.275 |
Table 5. Comparison of the fitting performance of the four methods for model (13) with random noise from N(0,2) at
levels of 0.5 and 0.8
表5. 四种方法在随机噪声来自N(0,2)的模型(13)在
水平为0.5和0.8的拟合表现比较
|
|
n = 200 |
p = 10 |
|
n = 400 |
p = 10 |
|
|
method |
AE |
MSE |
AADE |
AE |
MSE |
AADE |
0.5 |
retire |
1.007 |
0.163 |
0.265 |
0.725 |
0.082 |
0.184 |
huber |
1.007 |
0.163 |
0.265 |
0.725 |
0.082 |
0.184 |
sales |
1.010 |
0.163 |
0.272 |
0.726 |
0.082 |
0.189 |
qr |
1.066 |
0.181 |
0.283 |
0.737 |
0.087 |
0.197 |
0.8 |
retire |
1.088 |
0.187 |
0.327 |
0.822 |
0.103 |
0.260 |
huber |
1.035 |
0.172 |
0.612 |
0.728 |
0.083 |
0.608 |
sales |
1.073 |
0.182 |
0.280 |
0.805 |
0.099 |
0.193 |
qr |
1.348 |
0.287 |
0.359 |
0.870 |
0.117 |
0.283 |
4.2. 带惩罚的稀疏模型
生成来自
的
,其中
,
。让
,
,
是标准正态分布的分布函数;对于
,
;对于
,
。响应变量
有以下回归模型生成:
(11)
其中
,
可分两种情形,一是来自正态分布
,二是来自自由度为2.1的t分布,样本量
,
两种情形,
水平为0.5和0.8两种情况。表6展示了带SCAD惩罚的retire与带Lasso惩罚的另外三种方法的拟合结果表现比较,可见retire-SCAD的线性参数估计误差最小,TP最大,FP最小,是变量筛选最一致的。
Table 6. Comparison of the fitting performance of the four methods for model (14) with random noise from t(2.1) at
levels of 0.5 and 0.8
表6. 四种方法在随机噪声来自t(2.1)的模型(14)在
水平为0.5和0.8的拟合表现比较
|
|
n = 400 |
p = 300 |
|
|
n = 400 |
p = 500 |
|
|
|
method |
MSE |
AADE |
TP |
FP |
MSE |
AADE |
TP |
FP |
0.5 |
retire-SCAD |
0.107 |
0.693 |
1 |
0.015 |
0.132 |
0.7123 |
1 |
0.010 |
roer-L1 |
0.443 |
0.400 |
1 |
0.095 |
0.510 |
0.439 |
1 |
0.056 |
huber-L1 |
0.443 |
0.400 |
1 |
0.095 |
0.510 |
0.439 |
1 |
0.056 |
sales-L1 |
0.991 |
0.519 |
0.995 |
0.093 |
1.092 |
0.546 |
0.993 |
0.577 |
qr-L1 |
0.006 |
0.018 |
1 |
0.017 |
0.072 |
0.019 |
1 |
0.129 |
0.8 |
retire-SCAD |
0.157 |
0.656 |
1 |
0.010 |
0.161 |
0.607 |
1 |
0.007 |
roer-L1 |
0.609 |
0.463 |
1 |
0.099 |
0.621 |
0.461 |
1 |
0.062 |
huber-L1 |
0.471 |
0.560 |
1 |
0.095 |
0.497 |
0.497 |
1 |
0.057 |
salse-L1 |
1.002 |
0.615 |
0.994 |
0.091 |
1.207 |
0.780 |
0.996 |
0.072 |
qr-L1 |
0.263 |
0.021 |
1 |
0.169 |
0.257 |
0.019 |
1 |
0.135 |
4.3. 时间对比
笔者增加此部分模拟以展示所提方法retire-L1与qr-L1相比在计算效率上的优势。分别借助R语言的adaHuber和rqPen两个包,稀疏正则参数
由十则交叉验证选择,retire的稳健参数
如表1所示由数据自适应调节。100次模拟的数据由模型(15)生成:
(12)
其中
,
和
同4.2节的设定,
来自自由度为2.1的t分布,
,样本数量
,解释变量维数
。
模拟结果如表7所示,运行时间的单位为秒,随着n和p的增加估计误差都在减少。虽然在
的随机噪声下qr-L1比retire-L1较稳健,但计算效率不如retire-L1快,特别是p很大的时候,例
时,qr-L1的计算时间是retire-L1的16倍。
Table 7. Comparison of time and estimation results between retire-L1 and qr-L1 at
表7. Retire-L1与qr-L1在
的时间和估计结果对比
|
p = 100, n = 50 |
p = 200, n = 100 |
p = 300, n = 150 |
p = 400, n = 200 |
p = 500, n = 250 |
qr-L1-time/qr-L1-time |
1 |
1 |
1 |
1 |
1 |
qr-L1-AADE/qr-L1-AADE |
1 |
1 |
1 |
1 |
1 |
qr-L1-MSE/qr-L1-MSE |
1 |
1 |
1 |
1 |
1 |
retire-L1-time/qr-L1-time |
0.176 |
0.121 |
0.092 |
0.065 |
0.060 |
retire-L1-AADE/qr-L1-AADE |
1.496 |
1.351 |
1.240545 |
1.261 |
1.081 |
retire-L1-MSE/qr-L1-MSE |
1.139 |
1.207 |
1.340393 |
1.406 |
1.432 |
5. 实证研究
文献[24]指出
胡萝卜素与肺癌、乳腺癌等癌症之间存在直接关系,一些流行病学研究表明其抗氧化特性能清除可能导致癌症的自由基,充足的
胡萝卜素能提高人体免疫力有效地对抗癌症等疾病。我们分析Nierenberg等人[25]收集的血浆
胡萝卜素水平数据集并建立部分线性可加模型,寻找血浆
胡萝卜素水平与个人特征之间的关系,包括年龄、性别、体重指数和其他因素,响应变量Y是以ng/ml为单位的血浆
胡萝卜素,命名为BETAPLASMA,各变量的说明见表8,使用以下部分线性加性模型进行建模:
(16)
Table 8. Explanation of the variables for the Plasma
Carotene Levels dataset
表8. 血浆
胡萝卜素水平数据集变量的解释说明
变量名 |
含义 |
SEX |
1 = 男,0 = 女 |
SMOK1 |
1 = 以前吸烟,0 = 其他 |
SMOK2 |
1 = 现在吸烟,0 = 其他 |
BMI |
身体质量指数 |
VIT1 |
1 = 经常补充维生素,0 = 其他 |
VIT2 |
1 = 偶尔补充维生素,0 = 其他 |
CAL |
每天消耗的卡路里数 |
AGE |
年龄 |
FAT |
每天消耗的脂肪克数 |
ALCOHOL |
每周饮用的酒精饮料数量 |
BETADIET |
膳食β-胡萝卜素消耗量(微克/天) |
CHOL |
每日摄入的胆固醇(毫克/天) |
FIBER |
每日摄入的纤维克数(克/天) |
BETAPLASMA |
血浆 β-胡萝卜素(纳克/毫升) |
在建模前用Min-Max标准化法消除变量量纲不同可能造成的影响,AGE、CHOL和FIBER放入非线性部分,其余解释变量放入线性部分。用带SCAD惩罚的稳健expectile回归筛选影响人体
胡萝卜素含量的重要变量,研究血浆
胡萝卜素在不同expectile水平
的条件分布,回归结果见表9。可以看到三个不同
水平的回归系数有差异,说明数据存在异质性,从十个变量里筛选出BMI、胡萝卜消耗、吸烟、维他命摄入和性别对
胡萝卜素含量占主要影响的五个因素。进而推出合理的BMI范围、不吸烟、多摄入维生素能保证人体
胡萝卜素含量充足,能预防癌症等疾病的结论。
Table 9. Regression coefficients of important variables at three different
levels
表9. 在三个不同
水平下的重要变量的回归系数
|
BMI |
BETADIET |
SMOK1 |
SMOK2 |
VIT1 |
VIT2 |
SEX |
0.2 |
−143 |
84 |
−9 |
−39 |
0 |
−30 |
−29 |
0.5 |
−187 |
135 |
0 |
−42 |
23 |
−39 |
−23 |
0.8 |
−222 |
140 |
−11 |
−59 |
33 |
−38 |
−31 |
6. 总结
本文在PLAMs框架下研究高维稳健expectile回归模型,数值模拟和实证研究显示该法与quantile regression一样能通过取不同的
水平来分析数据异质性,但比quantile regression的计算效率高,而估计效果和quantile regression同样具有稳健性。