随着机器学习的发展,越来越多SCI文章都使用了更多有趣、高效的统计方法来进行分析,LASSO回归就是其中之一。很多小伙伴听说过LASSO,但是对于LASSO是什么,有什么用,怎么才能实现,大家可能一头雾水。今天的文章就带大家认识“神秘的LASSO”。
1.什么是LASSO?
LASSO,全称Least absolute shrinkage and selection operator,是一种数据挖掘方法,即在常用的多元线性回归中,添加惩罚函数,不断压缩系数,从而达到精简模型的目的,以避免共线性和过拟合。当系数为0时,同时达到筛选变量的效果。(以下是一个不严谨的示意图)
所以,LASSO回归高效解决了筛选变量的难题:区别于传统的逐步回归stepwise前进、后退变量筛选方法,LASSO回归可以利用较少样本量,高效筛选较多变量。比如在基因组学、影像学、以及其他小样本分析中,LASSO回归都可以派上大用场。
2.LASSO在SCI文章中的应用
说了这么多,下面我们通过一篇4.6分的SCI文章,了解LASSO回归的实际应用吧。
文章标题:A prognostic nomogram based on LASSO Cox regression in patients with alpha-fetoprotein-negative hepatocellular carcinoma (AFP-NHCC) following non-surgical therapy
翻译成中文:基于LASSO cox回归的非手术治疗后甲胎蛋白阴性肝癌患者的预测列线图。
本研究的目的是应用一种新的方法来建立和验证一种新的预测AFP-NHCC患者预测的模型。下面我们用PICOS原则来拆解文章:
P 558例AFP阴性的肝癌患者。
I &C 患者基线或治疗相关的指标。
O 从诊断为肝癌到最后一次随访或死亡的时间。
S 队列研究,生存分析类型文章。
文章的主要结论是:基于LASSO Cox回归的nomogram对于非手术治疗肝癌患者的预后预测更加准确和有用。该模型可以帮助肝癌患者在非手术治疗后进行个性化的预后评估。
接下来看文章相关图表,下面就是LASSO模型会输出的两张图,这两张图展示了LASSO是如何工作的。
图A:23个危险因素的LASSO系数路径图。图B:交叉验证曲线。
3.LASSO回归结果的解读
先看A图:回归系数路径图。该文章中纳入了23个变量,便有23条不同颜色的线。每条线上都有变量编号。即每一条曲线代表了每一个自变量系数的变化轨迹,纵坐标是系数的值,下横坐标是log(λ),上横坐标是此时模型中非零系数的个数。
我们可以看到,随着参数log λ增大,回归系数(即纵坐标值)不断收敛,最终收敛成0。例如,最上面那条代表的自变量12在λ值很大时就有非零的系数,然后随着λ值变大不断变小。
图B是LASSO回归的交叉验证曲线。
X轴是惩罚系数的对数 log λ,Y轴是似然偏差,Y轴越小说明方程的拟合效果越好。最上面的数字则为不同λ时,方程剩下的变量数。图上打了黄色和绿色标签的两条虚线,代表两个特殊的lambda(λ)值。
左边虚线为λ min,意思是偏差最小时的λ ,代表在该lambda取值下,模型拟合效果最高。变量数是16,相比λ-se,保留下来的变量更多。
右边虚线为λ-se,意思是最小λ右侧的1个标准误。在该λ取值下,构建模型的拟合效果也很好,同时纳入方程的个数更少,模型更简单。因此,临床上一般会选择右侧的λ1-se作为最终方程筛选标准。
从上图可以看到,本方程λ-se对应的变量数量是5,所以最终纳入了5个变量进入方程。至于是哪5个,在用软件具体分析的时候会有展示,系数不为0的就是最终纳入的变量:(下图为示意图,不是本文结果)
使用这5个变量,就可以正常纳入回归方程进行数据分析了,比如本文的预测模型nomogram,就是使用筛选出来的5个变量进行的分析。
除此之外,文章作者还使用传统变量筛选法,也做了一个COX分析,同时比较传统模式和LASSO回归挑选出来变量的AUC的区别,证明了在验证模型中,LASSO回归的效果确实要优于传统方法,从侧面也验证了LASSO回归的高效之处。
4.总结
好了,以上就是关于LASSO回归的定义、作用,以及结果解读,希望能够让大家对LASSO还有一个宏观的认识。关于怎么使用R软件快速做出一个LASSO回归,如果大家感兴趣,可以动动小手分享本文,本文阅读量超过3000,我们就再开一期教程,手把手带大家做出LASSO回归!
易侕科研是一个专注于临床研究设计、统计分析、数据库搭建的团队,关注我们,查看更多科研干货文章。