线性回归简介

- 1、情景描述
- 2、线性回归

1、情景描述

假设，我们现在有这么一张图：
在这里插入图片描述

其中，横坐标x表示房子的面积，纵坐标y表示房价。我们猜想x与y之间存在线性关系： $y = k x + b$

现在，思考一个问题：如何找到一条直线，使得这条直线尽可能地拟合图中的所有数据点？
在这里插入图片描述

这个找最佳拟合直线的过程称为做线性回归

简而言之，线性回归就是在N维空间中找一个类似直线方程y=kx+b一样的函数来拟合数据

线性回归模型则是利用线性函数对一个或多个自变量（x）和因变量（y）之间的关系进行拟合的模型

这里有一个问题，线性等于直线吗？

线性函数的定义是零阶或一阶多项式。特征是二维时，线性模型在二维空间构成一条直线；特征是三维时，线性模型在三维空间中构成一个平面；以此类推，具体见下文线性回归的定义及推导

还有一个问题，那就是如何评判找的哪条直线才是最优的？详见文章最小二乘法：传送门

2、线性回归

1）线性回归的定义及推导

定义：对于一个有n个特征的样本而言，它的线性回归方程如下：

$f(x_1,x_2,...,x_{n-1}) = \omega_0 + w_1x_1 + w_2x_2 +...+w_{n-1}x_{n-1}$

其中， $w_0$ ~ $w_{n-1}$ 统称为模型的参数，表示样本有n个特征，有时也用 $\theta$ 或 $\beta$ 表示

$w_0$ 称为截距， $w_1$ ~ $w_{n-1}$ 称为回归系数（Regression Coefficients）， $x_1$ ~ $x_{n-1}$ 为样本的输入向量，y为样本的输出向量

根据简单场景推导n个特征的样本线性回归方程过程如下：

假设我们有2个样本：[ $x_1$ =1， $y_1$ =1]、[ $x_2$ =2， $y_2$ =3]，我们猜测其关系符合：
$y = k x + b$

将样本代入函数：
$\begin{cases} k * 1 + b = 1 \\ k * 2 + b = 3 \end{cases}$
从最小次幂排列：
$\begin{cases} b*1 + k*1 = 1 \\ b*1 + k*2 = 3 \end{cases}$
对应到2个特征的线性回归方程模板：
$\begin{cases} b*x_{01} + k*x_{11} = y_1 \\ b*x_{02} + k*x_{12} = y_2 \end{cases}$
转换为矩阵：
$\left[ \begin{matrix} 1 & 1 \\ 1 & 2 \end{matrix} \right] \left[ \begin{matrix} b \\ k \end{matrix} \right] = \left[ \begin{matrix} 1 \\ 3 \end{matrix} \right]$

其中， $x_0$ 始终为1。对应到2个特征的线性回归方程模板：
$\left[ \begin{matrix} 1 & x_{11} \\ 1 & x_{12} \end{matrix} \right] \left[ \begin{matrix} b \\ k \end{matrix} \right] = \left[ \begin{matrix} y_1 \\ y_2 \end{matrix} \right]$
推广到一般场景：
$\left[ \begin{matrix} 1 & x_{11} & x_{21} & \cdots & x_{{n-1},1} \\ 1 & x_{12} & x_{22} & \cdots & x_{{n-1},2} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_{1m} & x_{2m} & \cdots & x_{{n-1},m} \end{matrix} \right] \left[ \begin{matrix} \omega_0 \\ \omega_1 \\ \vdots \\ \omega_{m-1} \end{matrix} \right] = \left[ \begin{matrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{matrix} \right]$
简化：
$X\omega=y$
其中，y为m $\times$ 1的矩阵向量，表示模型的理论输出； $\omega$ 为n $\times$ 1的矩阵向量，表示模型的样本输入；X为m $\times$ n的矩阵向量，m表示样本数，n表示样本的特征数

2）线性回归的解

线性回归的解析解 $\omega$ 推导：

假设Y是样本的输出矩阵向量，维度为m $\times$ 1，则根据勒让德最小二乘准则有：
$J(\omega) = ||y-Y||^2 = ||X\omega-Y||^2=(X\omega-Y)^T(X\omega-Y)$
根据数学知识，函数导数为0处取极值：
$\frac{\partial}{\partial\omega}J(\omega)=2X^TX\omega-2X^TY=0$
解得：
$\omega=(X^TX)^{-1}X^TY$