最小二乘法简介
- 1、背景描述
- 2、最小二乘法
- 2.1、最小二乘准则
- 2.2、最小二乘法
- 3、最小二乘法与线性回归
- 3.1、最小二乘法与线性回归
- 3.2、最小二乘法与最大似然估计
- 4、正态分布(高斯分布)
1、背景描述
在工程应用中,我们通常会用一组观测数据去估计模型的参数,模型是我们根据经验知识预先给定的。例如,我们有一组观测数据
(
x
i
,
y
i
)
(x_i,y_i)
(xi,yi),通过简单分析,我们猜测y与x之间存在线性关系,那么我们的模型可以给定为:
y
=
k
x
+
b
y=kx+b
y=kx+b
该模型只有两个参数,理论上,我们只需要通过两组观测值建立二元一次方程组即可求解。类似的,如果模型有n个参数,我们只需要n组观测值即可求解。换句话说,这种情况下,模型的参数是唯一确定解
但是,在实际应用中,由于我们的观测会存在误差(偶然误差、系统误差等),所以我们总会做更多观测。例如,在上述例子中,尽管只有两个参数,但是我们可能会观测n组数据:
(
x
0
,
y
0
)
、
(
x
1
,
y
1
)
、
.
.
.
、
(
x
n
−
1
,
y
n
−
1
)
(x_0,y_0)、(x_1,y_1)、...、(x_{n-1},y_{n-1})
(x0,y0)、(x1,y1)、...、(xn−1,yn−1),这会导致我们无法找到一条直线经过所有的点,也就是说,方程无确定解
于是,这就是我们要解决的问题:虽然没有确定解,但是我们能不能求出近似解,使得模型能在各个观测点上达到“最佳“拟合
那么“最佳”的准则是什么?可以是所有观测点到直线的距离和最小,也可以是所有观测点到直线预测点(真实值-理论值)的绝对值和最小,还可以是所有观测点到直线预测点(真实值-理论值)的平方和最小
2、最小二乘法
2.1、最小二乘准则
19世纪初(1806年),法国科学家勒让德发明了“最小二乘法”。勒让德认为,让误差(真实值-理论值)的平方和最小估计出来的模型是最接近真实情形的。换句话说,勒让德认为最佳的拟合准则是使
y
i
y_i
yi与
y
=
f
(
x
i
)
y=f(x_i)
y=f(xi)的距离的平方和最小:
L
=
∑
i
=
1
m
(
y
i
−
f
(
x
i
)
)
2
L=\sum_{i=1}^m(y_i-f(x_i))^2
L=i=1∑m(yi−f(xi))2
这个准则也被称为最小二乘准则。这个目标函数取得最小值时的函数参数,就是最小二乘法的思想,所谓“二乘”就是平方的意思
勒让德在原文中提到:使误差平方和达到最小,在各方程的误差之间建立了一种平衡,从而防止了某一极端误差取得支配地位,而这有助于揭示系统的更接近真实的状态
至于为什么最佳准则就是误差平方而不是其它的,勒让德当时并没有给出解释,直到后来高斯建立了正态误差分析理论才成功回答了该问题
1829年,高斯建立了一套误差分析理论,从而证明了确实是使误差(真实值-理论值)平方和最小的情况下系统是最优的
误差分析理论其实说到底就一个结论:观察值的误差服从标准正态分布,即 ϵ ∈ N ( 0 , 1 ) ϵ∈N(0,1) ϵ∈N(0,1)
关于正态分布的介绍见本文第4节
2.2、最小二乘法
最小二乘法就是一个数学公式,在数学上称为曲线拟合,不仅包括线性回归方程,还包括矩阵的最小二乘法
最小二乘法是解决曲线拟合问题最常用的方法。令
其中, φ k ( x ) \varphi_k(x) φk(x)是事先选定的一组线性无关的函数, a k a_k ak是待定系数 ( k = 1 , 2 , . . . , m , m < n ) (k=1,2,...,m,m<n) (k=1,2,...,m,m<n),拟合准则是使 y i ( i = 1 , 2 , . . . , n ) y_i(i=1,2,...,n) yi(i=1,2,...,n)与 f ( x i ) f(x_i) f(xi)的距离 δ i \delta_i δi的平方和最小,称为最小二乘准则
百度百科词条给出的基本原理如下:
最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和最小
最小二乘法是一种在误差估计、不确定度、系统辨识及预测、预报等数据处理诸多学科领域得到广泛应用的数学工具
3、最小二乘法与线性回归
3.1、最小二乘法与线性回归
对于勒让德给定的最佳拟合准则,我们可以看到,最小二乘法其实就是用来做函数拟合的一种思想。至于如何求解具体的参数那就是另外一个问题了
最小二乘法的本质是一种数学思想,它可以拟合任意函数。而线性回归只是其中一个比较简单且常用的函数,所以讲最小二乘法基本都会以线性回归为例
线性回归因为比较简单,可以直接推导出解析解,而且许多非线性的问题也可以转化为线性问题来解决,所以得到了广泛的应用
线性回归简介见文章:传送门
3.2、最小二乘法与最大似然估计
最大似然估计:最大化给定样本集发生的概率,即就是极大化似然函数(Likelihood Function),而似然函数就是样本的联合概率。由于我们通常都会假设样本是相互独立的,因此联合概率就等于每个样本发生的概率乘积
假设我们有m组观测数据
(
x
1
,
y
1
)
,
.
.
.
,
(
x
m
,
y
m
)
(x_1,y_1),...,(x_m,y_m)
(x1,y1),...,(xm,ym),我们猜测其关系符合:
y
=
k
x
+
b
y=kx+b
y=kx+b
假设真实值与预测值之间的误差为:
ε
i
=
y
i
−
y
=
y
i
−
f
(
x
i
)
\varepsilon_i=y_i-y=y_i-f(x_i)
εi=yi−y=yi−f(xi)
根据高斯的误差分析理论,观测值的误差服从标准正态分布(见文末),即给定一个
x
i
x_i
xi,模型输出真实值
y
i
y_i
yi的概率为:
p
(
y
i
∣
x
i
)
=
1
2
π
e
−
ε
i
2
2
p(y_i|x_i)=\frac{1}{\sqrt{2\pi}}e^{-\frac{\varepsilon_i^2}{2}}
p(yi∣xi)=2π1e−2εi2
则根据最大似然估计(似然函数)有:
L
(
ω
)
=
∏
i
=
1
m
p
(
y
i
∣
x
i
)
=
∏
i
=
1
m
1
2
π
e
−
ε
i
2
2
L(\omega)=\prod_{i=1}^mp(y_i|x_i)=\prod_{i=1}^m\frac{1}{\sqrt{2\pi}}e^{-\frac{\varepsilon_i^2}{2}}
L(ω)=i=1∏mp(yi∣xi)=i=1∏m2π1e−2εi2
两边取对数得:
J
(
ω
)
=
l
n
(
L
(
ω
)
)
=
∑
i
=
1
m
l
n
(
1
2
π
e
−
ε
i
2
2
)
=
∑
i
=
1
m
l
n
1
2
π
−
1
2
∑
i
=
1
m
ε
i
2
J(\omega)=ln(L(\omega)) = \sum_{i=1}^mln(\frac{1}{\sqrt{2\pi}}e^{-\frac{\varepsilon_i^2}{2}}) = \sum_{i=1}^mln\frac{1}{\sqrt{2\pi}}-\frac{1}{2}\sum_{i=1}^m\varepsilon_i^2
J(ω)=ln(L(ω))=i=1∑mln(2π1e−2εi2)=i=1∑mln2π1−21i=1∑mεi2
去掉无关常数项得:
J
(
ω
)
=
l
n
(
L
(
ω
)
)
=
−
1
2
∑
i
=
1
m
ε
i
2
=
−
1
2
∑
i
=
1
m
(
y
i
−
f
(
x
i
)
)
2
J(\omega)=ln(L(\omega))=-\frac{1}{2}\sum_{i=1}^m\varepsilon_i^2=-\frac{1}{2}\sum_{i=1}^m(y_i-f(x_i))^2
J(ω)=ln(L(ω))=−21i=1∑mεi2=−21i=1∑m(yi−f(xi))2
要使
L
(
ω
)
L(\omega)
L(ω)(概率)最大,即
J
(
ω
)
J(\omega)
J(ω)最大,则使下面多项式结果最小即可:
∑
i
=
1
m
(
y
i
−
f
(
x
i
)
)
2
\sum_{i=1}^m(y_i-f(x_i))^2
i=1∑m(yi−f(xi))2
上述结果表明:最大似然估计(似然函数)等价于最小二乘法,这也表明了以误差平方和作为最佳拟合准则的合理性
因此我们可以说,最小二乘法其实就是误差满足正态(高斯)分布的极大似然估计,最小化误差平方本质上等同于在误差服从正态(高斯)分布的假设下的最大似然估计
4、正态分布(高斯分布)
正态分布(Normal Distribution),也称高斯分布(Gaussian Distribution),其曲线呈钟型,两头低,中间高,左右对称,因此也被称为钟形曲线
定义:若连续型随机变量x有如下形式的密度函数:
则称x服从参数为
(
μ
,
σ
2
)
(\mu,\sigma^2)
(μ,σ2)的正态分布(Normal Distribution),记为
X
−
N
(
μ
,
σ
2
)
X-N(\mu,\sigma^2)
X−N(μ,σ2)
性质:
- 关于 x = μ x=μ x=μ 对称,在 x = μ x=μ x=μ 处达到最大值 1 2 π σ \frac{1}{\sqrt{2\pi}\sigma} 2πσ1,越远离 μ μ μ,密度函数值越小
- 数学期望(均值)为 μ μ μ,标准差为 σ \sigma σ,方差为 σ 2 \sigma^2 σ2
标准正态分布:又称 μ μ μ分布,是以0为均值(数学期望)、以1为标准差的正态分布,记为 X − N ( 0 , 1 ) X-N(0,1) X−N(0,1),密度函数:
参考文章:
https://blog.csdn.net/MoreAction_/article/details/106443383
https://blog.csdn.net/MoreAction_/article/details/121591653
https://blog.csdn.net/qq_46092061/article/details/119136137