【机器学习300问】109、什么是岭回归模型？

在进行回归任务时间，可以能会遇到特征数量多于观测数量或某些特征变量之间相关性较高（几乎线性相关）时，标准的线性回归模型的系数估计可能非常不精确，可以理解成独立方程个数小于未知数个数此时方程有无穷多解。

例如：1个方程，2个未知数时，此时方程数量小于未知数个数，有无穷多解。

$x_1 + 2x_2 = 3$

序号	方程组的解
解1	$x_1=0$ 且 $x_2=\frac{3}{2}$
解2	$x_1=1$ 且 $x_2=1$
...
解m	$x_1=3$ 且 $x_2=0$
独立方程数量小于未知数个数，方程组有无穷多解

一、岭回归产生的背景

岭回归模型的提出为了解决什么问题呢？我们用一个比喻加一个例子来说明：

想象一下，你在一家咖啡馆里试图通过窗户观察外面行人手中的饮料类型来进行统计。但是，由于窗户上贴满了复杂的花纹，这些花纹就像是数据中的噪音和复杂关系，让你很难清晰地分辨每种饮料。这时候，如果你戴上一副特制的眼镜——这副眼镜能减弱花纹干扰，让你更专注于主要的区别特征，比如饮料的颜色或形状，这样就能更准确地统计了。

在机器学习中，岭回归就是这样一副“眼镜”。它是一种改进的线性回归方法，专门用来处理那些因为特征之间存在很强的相关性（我们称之为多重共线性）而变得棘手的问题。没有这副“眼镜”，普通的线性回归（就像直接用眼观察）可能会被数据中的复杂关系迷惑，导致预测效果很差，甚至系数估计出错。

二、岭回归的思想和公式

岭回归是如何工作的呢？它通过在原有的误差最小化目标基础上，加入了一个额外的惩罚项。这个惩罚项是各个特征权重（也就是回归系数）的平方和乘以一个正的常数（我们称之为正则化参数λ）。

在标准的多元线性回归中，模型参数通过最小化残差平方和（RSS）来估计：

$RSS = \sum_{i=1}^n (y_i - \sum_{j=0}^p \beta_j x_{ij})^2$

其中， $n$ 是样本数量， $y_i$ 是因变量的观测值， $x_{ij}$ 是自变量的观测值， $\beta_j$ 是回归系数。

然而，在某些情况下，特别是当特征数量接近或超过样本数量时，线性回归可能导致过拟合和不稳定的估计值。岭回归为了防止这些问题，将一个额外的正则项（也称为惩罚项）加到RSS上：

$RSS_{ridge} = RSS + \lambda \sum_{j=1}^p \beta_j^2$

其中， $\lambda$ 是一个正的调节参数（岭参数），起到调节系数向0收缩的力度。由于正则项的存在，岭回归倾向于将系数估计值向0压缩，这意味着尽管它们可能永远不会等于0，但可以控制过拟合现象，提高模型的泛化能力。

【注】选择一个合适的 $\lambda$ 值，因为它决定了系数压缩的程度。 $\lambda$ 的值越大，约束越强，回归系数会越小。通常 $\lambda$ 是通过交叉验证来选择的。

三、为什么叫岭回归？

岭回归之所以被称为“岭回归”（Ridge Regression），源自它在问题求解中的几何性质。这个名字可以归因于它在求解参数时，通过正则化项引入的约束导致解集呈现出“岭”的形状。

在标准线性回归中，模型的目标是最小化误差平方和，这在参数空间中可以视为寻找一个能使误差平方和函数最低的参数点。如果存在共线性，这个误差平方和的底部（代表最佳解的区域）会变得非常扁平，导致许多可能的解。

当引入岭回归的L2正则化时，即在目标函数中增加所有系数的平方和乘以岭参数λ，这就相当于在参数空间中增加了一个圆形的约束。这个圆形约束使得参数不再在平坦的区域自由移动，而是被限制在一个“岭”上，即限制在较小范围的圆形区域内寻找最佳解。因此，“岭”这个名称形象地描述了正则化项如何影响系数的求解过程，强制系数向零收缩，同时保护模型免于过拟合。

关于岭回归的代码演示：

学习岭回归https://gitee.com/wx114/linear-ridge-lasso-regression.git