Linear Regression
线性回归
线性回归是一种简单且常用的技术,用来预测连续变量,假设预测变量(自变量, x_i )和结果变量(因变量, y_i )之间存在线性关系。线性回归公式(其实就是一次方程):
那么当我们有一组数据后,如何构造线性回归模型,如何确定线性回归线呢?这个问题成为了贲节重点需要解决的问题。
SSE
首先我们要明白,当我们建模一个线性回归去模拟数据的时候,那我们新建立的模型肯定是要最贴近真实值的,那我们就可以问题转化为求预测值和真实值最小。
所以接下来我们需要引入一个概念**最小化误差平方和(SSE, Sum of Squared Errors)**,下图看不懂没关系,实际意义就是引入了SSE这个公式,这个公式代表着就是预测值和真实值之间的差值,至于为什么要是平方呢,因为有的真实值大于预测值,有的预测值大于真实值。而我们希望通过正数来记录差值,所以加上了平方。图中的图只是方便于大家理解,红色的线就是这个差值(residuals),如果大家学过残差网络就会很熟悉这个单词。
Minimize SSE
我们观察可以发现SSE这个公式是一个关于贝塔0、1的一个凸函数,凸函数怎么求最小值,是我们高中经常解决的问题,那就是求导且设导数为0啦(这部分要是不懂就复习一下高中数学嘻嘻)。下列为对贝塔0、1分别偏导的结果。
接下来我们重写原函数(最开始那个一元一次方程)且化简:
再重写式子(2)代入方程,同时替换贝塔0:
最后化简结果:
这样我们有了一个数据集之后,带入x和y就可以算出贝塔1和贝塔0了,从而我们就可以得到新建模的线性回归方程了。
(这里讲一句,作为计算机专业学生,我觉得我们应该强调应用,原理理解不了可以暂且搁置,不要因为这个打击了自己的学习兴趣是最重要的!!!!!)
SST、SSR
除了SSE这个指标以外,我们还需要其他指标来观测模型。
• SST (总平方和):数据与其均值的总差异,表示所有数据的总波动性。
• SSR (回归平方和):模型解释的数据部分,表示模型的解释能力。
• SSE (残差平方和):模型未能解释的数据部分,表示模型的误差。
这里请注意指标之间的关系是:SST = SSR + SSE
R^2
那我们知道了如何构造一个预测模型,接下来就需要有指标来检测模型的表现是否达到要求。决定系数()就是这个指标。
决定系数 R^2 是衡量回归模型拟合优度的重要指标,定义为:
• 的值范围在 0 到 1 之间,表示模型解释因变量的变异比例。
• 如果 越接近 1,表示模型的解释力越强,模型能够解释大部分的变异。
• 如果 = 0 ,表示模型完全无法解释数据中的变异。
Adjusted R^2
标准 的缺陷
• 标准的 有一个已知的缺陷,即它总是随着模型中预测变量(自变量)数量的增加而增大。即使新增加的变量并不能显著提高模型的解释能力, 也会增大。
• 这样可能会导致误导性的结果,使得模型看起来拟合得更好,尽管增加的新变量实际上并不有用。
调整后的 解决了这个问题
• 调整后的 R^2 在计算时考虑了模型中的预测变量的数量,并对其进行了修正。如果新加入的变量没有提供更多的信息或者不能显著提高模型的拟合效果,那么调整后的 R^2 可能会减少。
• 调整后的 R^2 不仅考虑了模型对数据的拟合度,还考虑了引入额外自变量带来的“惩罚”,从而使得它对无用变量更加敏感。
调整后的 解释了模型的拟合优度
• 调整后的 可以更准确地反映回归模型的真实拟合情况。它既衡量了模型的拟合优度,也考虑了自变量数量的影响。
• 如果你向模型中添加一些无关的变量,调整后的 会减少。这表明该模型并没有因为添加这些变量而变得更好。
调整后的公式如下
其中:
• R^2 :标准的决定系数,它反映了回归模型解释数据变异的能力。
• n :样本数量(数据点的数量)。
• p :自变量(回归模型中的独立变量)的数量。
RMSE
均方根误差(RMSE)是用于衡量模型预测误差的标准指标。它表示模型预测值和实际值之间的平均差异,计算的是预测误差的平方和的均值的平方根。简而言之,RMSE 表示的是模型预测值与真实值之间的平均偏差。这些公式没什么好说的,把数据代入进去算出结果就行了,公式如下: