学习目标:
线性回归是一种基本的统计学习方法,主要用于分析一个或多个自变量与因变量之间的线性关系。以下是关于线性回归的一些关键点:线性回归的四要素:
(1)假设(hypothesis);(2)模型参数(params);(3)代价函数(loss);(4)目标(Goal);
1.概念含义:
线性回归模型假设因变量和自变量之间存在线性关系,即可以通过一条直线(一维)或一个平面(多维)来近似表示这种关系。
2.数学表达式-假设(hypothesis):
由于真实值与预测值总会存在误差
3.参数(params):
其中,X可能是线性相关的特性(多元一次函数),公式中的参数W就是我们得到的算法模型,(主要就是为了训练得到model的parameter)。
有了好
的参数,这样就会然后我们的训练数据更好
的去拟合
模型。
这样对于一个新的X(n维,多个指标),可能更好的得出准确的y_predict。
4.代价函数(loss):
代价函数也叫均方误差函数,是我们预测模型(Θ-n维,多个指标)计算出的y_pre与y_true的比较。
那么这个公式是如何得出的:
在2中得到的公式误差 是独立并且具有相同的分布,
并且服从均值为0方差为 的高斯分布
,那么为什么会服从高斯分布呢?
传送门1:高斯分布的理解
传送门2:为什么线性回归模型中要假设随机误差等方差并且服从正态分布?
传送门3:为什么误差总是服从高斯分布?
引入似然函数
所以让损失函数越小越好
5.目标(goal):
目标就是用4中等式右面的均方误差函数求出最优的参数模型
那么如何求出最优
参数模型呢?如何得到好
的参数去更好
的拟合新数据呢?
后面就需要引入梯度下降
来的到模型最优的参数模型(loss越小越好)。
6.梯度下降(GD):
7.思考:
- 代价函数的定义可知是为了得到y_pre与y_true的误差更小,为什么不直接研究如何得到min(|y_pre-y_true|)?
- 代价函数为什么要平方而不是三次方?四次方?
不能一次方,三次,四次都不可以。因为要后续梯度下降求导,找代价函数的最小值。 - 如果实际应用中某特征,它表示通过X平方表示,可以使用线性回归吗?
可以的,但是需要特殊操作。需要将X平方的整体代表一个特征(特征处理)。 - 为什么要乘二分之一?
方便后续梯度下降求导,方便计算