基于LASSO的回归收缩和选择外文翻译资料

 2022-04-27 08:04

基于LASSO的回归收缩和选择

ROBERT TIBSHIRANIt

加拿大多伦多大学

[1994年1月定稿,1995年修订]

摘 要

我们提出了一种新的线性模型估计方法“LASSO(套索)”,它使剩余的平方和减到最小,这个平方和的绝对值之和小于一个常数。由于这个约束的性质,它倾向于产生一些恰好为0的系数,从而给出可解释的模型。我们的模拟研究表明套索具有子集选择和岭回归的一些有利特性。它产生了可解释的模型,如子集选择和展现了岭回归的稳定性。Donoho和Johnstone最近在自适应函数估计方面的工作也存在有趣的关系。套索思想是具有一般性的,可以应用于各种统计模型中:对广义回归模型和基于树的模型的扩展进行了简要描述。

关键词:二次规划;回归;收缩;子选择

1.引言

考虑通常的回归情况是:我们有数据(xi,yi),i = 1,2,...,N,其中x =(x,...,xP)T,yi是第i次观测的回归和响应。通过最小化残差平方误差来获得普通最小平方(OLS)估计。数据分析师通常不满意OLS估计的原因有两个。首先是预测准确性:OLS估计值通常偏差较小但方差较大;预测精度有时可以通过把系数缩小或设置为0来进行提高。通过这样做,我们牺牲了一点偏差来减少预测值的方差,因此可以提高整体预测精度。第二个原因是解释。有了大量的预测因子,我们经常想确定一个显示最强影响的较小子集用于改进OLS估计,子集选择和岭回归的两种标准技术都有缺点。子集选择提供了可解释的模型,但是可能是可变的,因为它是一个离散的过程—回归因子可以保留或从模型中删除。数据的较小变化可能会导致最终选择不同的模型,从而降低预测的准确性。岭回归是一个连续的过程,它使系数收缩并因此更稳定,然而,它不将任何系数设置为0,因此不提供易于解释的模型。我们提出了一种称为套索的新技术,用于“最小绝对收缩和选择算子”。它缩小了一些系数并将其他系数设置为0,因此试图保留子集选择和岭回归的良好特征。在第2节中,我们定义套索并查看一些特殊情况;第3节给出了一个真实的数据示例,而在第4节中,我们讨论了估计预测误差和套索收缩参数的方法。第5节简要介绍了套索的贝叶斯模型。我们在第6节中描述了套索算法。第7节描述了模拟研究。第8节和第9节讨论了对广义回归模型和其他问题的扩展。软阈值及其与套索的关系的一些结果在第10节讨论,而第11节包含一个总结和一些讨论。

2. LASSO

2.1 定义

假设我们有数据(xi,yi),i = 1,2,...,N,其中xi =(xi,... X,)T是预测变量,yi是响应。正如在通常的回归设置中那样,我们假设观测是独立的,或者假设xi有条件独立。我们假设xy是标准化的,因此。假设,套索估计值由

定义。这里tgt; 0是一个调整参数。现在,对于所有t,a的解决方案是。我们可以假设不失一般性,即,因此省略a。等式(1)的解的计算是具有线性不等式约束的二次规划问题。我们在第6节中为这个问题描述了一些有效和稳定的算法。参数tgt; 0控制了估计值为a的收缩量。设让满足最小二乘估计并让的值将导致解向0收缩,并且一些系数可能恰好等于0.例如,如果t = to / 2,则效果将大致类似于找到大小为p / 2的最佳子集。还要注意的是,设计矩阵不需要满秩。在第4节中,我们给出了一些基于数据的方法来估计t。套索的动机来自Breiman(1993)的一个有趣的提议。 Breiman的非负Garocte最小化

Garocte从OLS估计开始,并通过总和受到限制的非负面因素收缩。在广泛的仿真研究中,Breiman表明Garocte一直比子集选择具有更低的预测误差,并且与脊线回归相竞争,除非真实模型具有许多小的非零系数。 Garotte的缺点是它的解决方案取决于OLS估计的符号和大小。在OLS估计表现不佳的过度拟合或高度相关的环境中,Garotte可能因此受到影响。相反,套索避免了明确使用OLS估计。

Frank和Friedman(1993)提出使用参数的Lq范数的界限,其中q是大于或等于0的某个数,套索对应于q = 1。我们在第10节中简要讨论这一点。

2.2 正交设计案例

从正交设计案例中可以了解到收缩的性质。设X是第i个条目xij的ntimes;p设计矩阵,并且假设XTX = I是单位矩阵。等式(1)的解可以很容易地表示出来:

其中y由条件确定。有趣的是,这与Donoho和Johnstone(1994)和Donoho等人的软收缩建议形式完全一样(1995),在函数估计的上下文中应用于小波系数。Donoho等人也指出软收缩与最小LI范数惩罚之间的联系(1992)。在信号或图像恢复情况下的非负参数我们在第10节详细阐阐述。在正交设计的情况下,大小为k的最佳子集选择减少到选择绝对值最大的k个系数,并将其余的设置为0.对于X的某些选择,如果,这相当于设置,否则为0。岭回归最小化为:

或者,等价的,最小化为:

岭回归方法为:

Garotte估计为:

图1显示了这些函数的形式。岭回归用一个常数因子来缩放系数,而套索用一个常数因子转换,截断为0. garotte函数与套索非常相似,较大系数的收缩较小。正如我们的模拟将会显示的那样,当设计不正交时,套索与加罗特之间的差异可能很大。

2.3套索几何

从图1可以清楚地看出为什么套索经常产生的系数恰好为0,为什么这会发生在一般(非正交)环境中?而为什么它不会发生在使用约束的岭回归当中?即而不是? 图2为案例p = 2提供了一些见解。准则等于二次函数:

(加上一个常量)。这个函数的椭圆形轮廓如图2(a)中的完整曲线所示。它们都集中在OLS的估计上,约束区域是旋转的正方形。套索解决方案是轮廓触及方形的第一个位置,有时会出现在角落,对应于零系数。图2(b)显示了岭回归的图像:轮廓没有角落,因此很少会出现零解。从这幅图中可以看出一个有趣的问题:套索估计的符号能否与最小二乘估计的符号不同?由于变量是标准化的,当p = 2时,等高线的主轴与坐标轴的距离为正负45°,我们可以看出等高线必须与包含的同一象限内的正方形接触。然而,当pgt; 2并且数据中至少有中度相关时,这不一定是真实的。图3显示了三维示例。图3(b)中的视图确认椭圆接触约束区域的八分圆与其中心所在的八分圆不同。

图1(a)子集回归,(b)岭回归,(c)套索和(d)正交设计情况下的系数收缩形式

图2.(a)套索和(b)岭回归估计图

图3.(a)套索估计落在与总体最小平方估计不同的八分圆中的示例;(b)俯视图

Garotte保留每个的标志,套索可以改变标志。 即使在套索估计具有与加罗特相同的符号矢量的情况下,加罗特中的OLS估计的存在也可以使其行为不同。 模型在约束的条件下可写为,约束条件为。 例如p = 2和,那么效果将是水平地拉伸图2(a)中的正方形。 结果,较大的PI值和较小的P2值将受到Garotte的青睐。

2.4关于双预测案例的更多信息

假设p = 2,不失一般性,最小二乘估计都是正的。 然后我们可以证明套索估计是

图4. Lasso()和岭回归对于双预测的例子:曲线显示(P1,P2)对作为套索或脊参数的边界是变化的,从底部断开的曲线开始向上移动,相关性p为0,0.23,0.45,0.68和0.90

其中y选择为。 该公式适用于,即使预测变量是相关的,也是有效的。

相反,岭回归收缩的形式取决于预测因子的相关性。图4显示了一个例子。我们从没有噪音的模型y = 6x1 3x2中生成了100个数据点。这里xl和x2是具有相关性p的标准正态变量。图4中的曲线显示了脊线和套索估计值,因为和的边界是变化的。对于p的所有值,套索估计均遵循完整曲线。岭估计(虚曲线)取决于p。当p=0时,岭回归的比例收缩。然而,对于较大的p值,岭估计值会有差异地缩小,并且随着边界值的降低甚至会增加一点。正如杰罗姆弗里德曼所指出的,这是由于岭回归趋势试图使系数相等以使其平方规范最小化。

2.5标准误差

由于套索估计值即使对于固定值t也是响应值的非线性和非微分函数,因此很难获得对其标准误差的准确估计。一种方法是通过bootstrap:t可以是固定的,或者我们可以针对每个自举样本优化t。修正t类似于选择最佳子集,然后使用该子集的最小平方标准误差。通过将惩罚写为,可以得到一个近似的封闭形式估计。因此,在套索估计处,我们可以通过下式的岭回归逼近解:,其中W是具有对角元素的对角矩阵,其中W-是W的广义逆 并选择使得。估计的协方差矩阵可以近似为:

其中是误差方差的估计。这个公式的一个困难在于,它给出了的预测变量的估计方差为0.这个近似也表明了一种用于计算套索估计本身的迭代岭回归算法,但效率很低。然而,它对选择套索参数t却很有帮助(第4节)。

3.实例-前列腺癌数据

前列腺癌数据来自Stamey等人的研究(1989),在即将接受根治性前列腺切除术的男性中 研究了前列腺特异性抗原水平与一系列临床措施之间的关系。这些因素是log(癌症体积)(lcavol),log(前列腺重量)(lweight),年龄,log(良性前列腺增生量)(lbph),精囊侵入(svi),log(荚膜穿透)(lcp), 格里森评分(格里森)和格里森评分4或5分(pgg45)。 在首先标准化预测因子后,我们拟合一个线性模型来记录(前列腺特异性抗原)(lpsa)。

图5.前列腺癌系数的套索收缩例子:每条曲线代表作为(缩放的)套索参数(未画出截距)的函数的系数(在右侧标记),虚线表示s ^ = 0.44的模型,通过广义交叉验证选择

图5显示了作为标准化边界的函数的套索估计。请注意,当s变为0时,每个系数的绝对值趋于0。在这个例子中,曲线以单调方式减少为0,但这并不总是会发生。这种单调性的缺乏与岭回归和子集回归相同,例如,大小为5的最佳子集可能不包含大小为4的最佳子集。垂直虚线代表s = 0.44的模型,通过广义化选择最优值交叉验证。粗略地说,这相当于保持了一半以下的预测变量。表1显示了全部最小二乘,最佳子集和套索程序的结果。 7.1节给出了使用的最佳子集过程的细节。套索给予lcavol,lweight和svi非零系数;子集选择选择相同的三个预测变量。请注意,从子集选择中选择的预测变量的系数和Z值趋于大于整个模型值:这与正相关的预测变量很常见。然而,套索显示出相反的效果,因为它将系数和Z分数从它们的完整模型值中缩小。倒数第二列中的标准误差是通过从全部最小二乘拟合残差的自举重采样来估计的。标准误差是通过将原始数据集的最优值0.44固定来计算的。

图6.前列腺癌例子中八个预测因子的套索系数估计的200个自助值的箱形图

表2比较了岭近似公式(7)和固定t自助法,以及对每个样本重新估计t的自举法。除了零系数外,脊线公式给出了固定t自举的相当好的近似。允许变化包含一个额外的变化源,因此给出更大的标准误差估计。图6显示了套索估计的200次自举复制的箱形图,s固定在估计值0.44。估计系数为0的预测变量展现出偏态的自助分布。90%百分位数的中心间隔(bootstrap分布的第5和第95百分位数)均包含0值,但Icavol和svi的例外。

4.预测误差和t估计

在本节中,我们将介绍三种估算套索参数t的方法:交叉验证,广义交叉验证和风险的分析无偏估计。严格地说,前两种方法适用于“X随机”情况,假设观测值(X,Y)来自某种未知分布,第三种方法适用于X固定情况。但是,在实际问题中,两种情况之间通常没有明确的区别,我们可能会简单地选择最便捷的方法。假设

其中E(e)= 0并且var(E)= a2。估计值#39;(X)的均方误差由下式定义:

是在X和Y的联合分布上取的期望值,其中是固定的。 类似的测量是由

给出的的预测误差。我们通过Efron和Tibshirani(1993)第17章所述的(例如)五次交叉验证来估计套索过程的预测误差。套索按照归一化参数进行索引,并且预测误差是在从0到1的s值的网格上估计的,于是产生最低估计PE的值被选择。

仿真结果以ME而不是PE来报道的。对于本文中考虑的线性模型,均方误差具有简单的形式:

其中V是X的总体协方差矩阵。估计t的第二种方法可以从对套索估计的线性近似导出。 我们写约束为。这个约束等价于将拉格朗日罚分加到剩余的平方和上,其中取决于t。 因此我们可以写出约束解作为岭回归估计量:

其中,W-表示广义逆。因此,约束拟合中的有效参数的数量可以近似为:

令rss(t)为带约束t的约束拟合的残差平方和,我们构造了广义交叉验证风格统计量:

最后,我们概述了基于斯坦因的第三种方法无偏估计风险。假设z是一个多元正态随机向量,知道其均值和方差均值矩阵。是的估计量,我写出其中g是从R的P次方到R的P次方的几乎微分函数(参见Stein(1981)的定义1)。然后斯坦因(1981)表明:

我们可以将这个结果应用于套索估计量(3)。 用表示的估计标准误差,其中。 然后,(在X上)近似独立的标准正态变量,从方程(11)可以推导出公式:

作为风险或均方误差的近似无偏估计 ,满足。Donoho和Johnstone(1994)在函数估

全文共7217字,剩余内容已隐藏,支付完成后下载完整资料


英语原文共 23 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[13159],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。