线性回归算法是机器学习算法中最简单的一类,线性回归算法主要用于连续值的预测问题。
7.1 什么是线性回归
这种刻画了不同变量之间关系的模型叫作回归模型,如果这个模型是线性的,则为线性回归模型。
线性回归主要是应用回归分析来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,其表达形式为,e 为误差,服从均值为 0 的正态分布。
7.2 线性回归算法解决什么问题
机器学习过程中使用线性回归算法, 就是希望找到上述参数,从而确定具体的线性回归算法模型,也就是参数已经确定下来的算法模型。
7.3 线性回归算法实现过程
整个预测任务和目标的实现过程可以分为 3 步:第一步,根据经验和观察,人为选定 某个算法进行尝试;第二步,寻找某些“最佳”参数,从而得到某个具体的“最佳”算法 模型;第三步,使用某个具体的“最佳”算法模型进行预测。
(1)选择算法。
主要是确定哪些特征变量与目标变量之间存在着某种线性关系。
(2)损失函数。
根据线性回归模型的特点,我们采用最小二乘法,也就是历史房价真实值与预测值之间的 均方误差作为“差别”的度量标准,也就是我们需要找到一组参数 w 和 b,使得均方误差最小化,
即,其中 w* 和 b* 表示使得均方误差最小的 w 和 b 的解。
(3)参数估计。
为了找到“最佳”的线性回归模型,我们需要找到使损失函数最小的参数值,也就是使均方误 差最小化的参数 w 和 b 的值。而求解“最佳”参数 w 和 b 的过程,就叫作参数估计。
对凸函数而言,一个通用的参数估计方法就是梯度下降,也可以通过损失函数求微分的方式,找 到使损失函数最小的参数值。
(4)正则化。
最佳”算法模型很可能“学习过度”了,也就是与历史数据拟合太好,把很多历史数据中的噪声也学习进去了,反而降低了模型的泛化能力。为了解决这种过拟合的问题,算法科学家们发明了正则化的方法。