第7章-使用统计方法进行变量有效性测试-7.4.1-简单线性回归

基本概念

变量之间的关系

基本概念

变量之间的关系

变量之间的关系，一般可以分成两类，确定性关系和非确定性的依存关系。

（1）确定性关系

如果一个变量的值 $Y$ 能被一个或若干个其他变量值 $X_1,X_2,...,X_k$ 按某一规律唯一的确定，则这类变量之间就具有完全确定的关系。可以写成如下形式：

$Y=f(X_1,X_2,..,X_k)$

这里 $f$ 就是“按某一规律唯一的确定”中的那个唯一的规律。确定性关系通常也称为函数关系。事实上，上式就是我们熟悉的多元函数。其中 $X_1,X_2,...,X_k$ 为自变量， $Y$ 为因变量。

例如：假设每吨水的价格为10元时，居民应缴纳水费 $Y$ （元），与用水量 $X$ （吨）之间的关系就是一个确定性关系，确定性关系如下：

$Y=10X$

（2）非确定性关系

如果一个变量的值 $Y$ 与一个或若干个其他变量值 $X_1,X_2,...,X_k$ 之间存在着密切的数量关系，却无法由 $X_1,X_2,...,X_k$ 的值精确求出。在基于大量统计数据的基础之上，可以判别这类变量之间的数量关系具有一定的规律性，称为统计相关关系。

例如：居民消费支出 $Y$ ，与可支配收入 $X$ 之间存在着密切的数量关系。在一定范围内，可支配收入增加，居民的消费支出也会相应增加。但是，根据可支配收入并不能精确求出消费支出。也就是它们之间的关系是非确定性的。

回归分析

回归分析是研究某一被解释变量（因变量），与另一个或多个解释变量（自变量）间的依存关系，其目的在于根据已知的解释变量值来估计和预测被解释变量的总体平均值。

在研究某一社会经济现象的发展变化规律时，所研究的现象或对象称为被解释变量。它是分析的对象，把引起这一现象变化的因素称为解释变量。它是引起这一现象变化的原因。

按照回归分析模型中自变量的个数，分为一元回归分析和多元回归分析。一元回归分析是指分析模型中只有一个自变量，多元回归分析是指回归分析模型中有两个或两个以上的自变量。

按照回归分析模型中参数与被解释变量（因变量）之间是否线性，分为线性回归分析和非线性回归分析。注意这里是针对参数，而不是自变量。

本文将重点研究一元线性回归分析，也就是文章标题所写的“简单线性回归”。

一元线性回归模型

总体回归函数

假若我们要研究的问题是：某市城镇居民家庭的可支配收入 $X$ 和消费支出 $Y$ 之间的关系。则全市城镇居民家庭构成了研究的总体。某市全部城镇居民家庭可支配收入和消费支出统计数据如下：

可支配收入 $X$	消费支出 $Y$	户数	平均消费支出
$X_1$	$Y_{11},Y_{12},...,Y_{1n_1}$	$n_1$	$E(Y\|X_1)$
$X_2$	$Y_{21},Y_{122},...,Y_{2n_2}$	$n_2$	$E(Y\|X_2)$
......	......	......	......
$X_i$	$Y_{i1},Y_{i2},...,Y_{in_i}$	$n_i$	$E(Y\|X_i)$
......	......	......	......
$X_k$	$Y_{k1},Y_{k2},...,Y_{kn_k}$	$n_k$	$E(Y\|X_k)$

第1列是可支配收入 $X$ ，分为 $k$ 个不同的收入水平 $X_1,X_2,...,X_k$ 。

第2列是消费支出，对于某一个收入水平 $X_i$ ，总共有 $n_i$ 户家庭的消费支出数据与之对应，反映了在给定某一收入水平下，有关消费支出的条件分布。根据条件分布可以计算出在某一收入水平下的平均消费支出 $E(Y|X_i)$ ，即条件均值。

可以看出，对于每一个收入水平 $X_i$ ，仅有唯一的一个条件均值 $E(Y|X_i)$ 与之对应。这种一一对应关系，可以表示成如下函数关系：

$E(Y|X_i)=f(X_i)$ （1）

该函数被称为总体回归函数（Population Regression Function, PRF），总体回归函数反映了在给定自变量 $X_i$ 下，因变量 $Y$ 的分布的总体均值随自变量 $X_i$ 的变化关系。

总体回归函数 $f$ 若是线性函数，有：

$E(Y|X_i)=\beta_0+\beta_1X_i$ （2）

其中 $\beta_0,\beta_1$ 是未知而固定的参数，称为回归系数（Regression Coefficients），特别地， $\beta_0$ 称为截距系数， $\beta_1$ 称为斜率系数。这里所谓的未知而固定，指的是通常研究的总体变量之间的关系是无法知道的，但又是客观存在的，只能根据样本数据来进行近似估计。（2）式也被称为一元线性总体回归函数。

事实上， $E(Y|X_i)$ 仅仅反映了在某一收入水平 $X_i$ 下，平均消费支出水平。但是对于某一居民的家庭消费支出 $Y_i$ 不一定与该水平一致。或多或少存在一些偏差。该偏差用 $\varepsilon_i$ 表示。即：

$\varepsilon_i=Y_i-E(Y|X_i)$

则有

$Y_i=E(Y|X_i)+\varepsilon_i$

总体回归函数 $f$ 若是线性函数，则

$Y_i=\beta_0+\beta_1X_i+\varepsilon_i$ （3）

$\varepsilon_i$ 是除可支配收入外，其他一个或多个影响消费支出的因素的综合影响，是一个不可观测的随机变量，称为随机误差项。注意到上式中下标i仅仅表达的是第i个收入水平，是一个随机变量，并不是第i个样本，所以，可以写成如下更一般的形式：

$Y=\beta_0+\beta_1X+\varepsilon$

该式就是本文要讨论的一元线性回归函数。式中的各个项都是真实值，不是预测值或估计值。注意到求解总体回归函数就是求解出回归系数 $\beta_0,\beta_1$ 。下面介绍样本回归函数。

样本回归函数

根据总体可以建立总体回归函数，揭示被解释变量（因变量）随解释变量的变化而变化的规律。但在大多数实际情况中，总体的信息往往无法全部获得，我们所掌握的不过是与某些固定的 $X$ 值相对应的 $Y$ 值样本，需要根据已知的样本信息去估计总体回归函数。

假设现在不知道建立总体回归函数的统计数据，仅仅掌握了来自总体的一组样本数据，例如：

根据以上样本数据拟合如下线性函数：

$\hat{Y_i}=\hat{\beta_0}+\hat{\beta_1}X_i$

该式称为样本回归函数。比较该式与总体回归函数

$E(Y|X_i)=\beta_0+\beta_1X_i$

假如 $\hat{\beta_0}$ 无限接近 $\beta_0$ ， $\hat{\beta1}$ 无限接近 $\beta_1$ ，就可以用样本回归函数值 $\hat{Y_i}$ 去估计总体回归函数 $E(Y|X_i)$ 的值，即 $E(Y|X_i)\approx \hat{Y_i}$ 。

估计值 $\hat{Y_i}$ 与真实值 $Y_i$ 存在一定的误差，该偏差用 $e_i$ 表示。如下：

$e_i=Y_i-\hat{Y_i}$

即

$Y_i=\hat{Y_i}+e_i$

得到如下一元线性样本回归函数：

$Y_i=\hat{\beta_0}+\hat{\beta_1}X_i+e_i$

$e_i$ 称为样本剩余项，或残差。

线性回归模型的假定

（1）线性于参数

即讨论的模型是关于参数 $\beta_0,\beta_1$ 的线性函数。即：

$Y=\beta_0+\beta_1X+\varepsilon$

当然这里是一元情形，可以写成多元形式。

（2）扰动项与自变量不相关，期望值为0

即

$Cov(X_i,\varepsilon_i)=0, E(\varepsilon_i)=0$

（3）扰动项之间相互独立且服从方差相等的同一个正态分布

即

$Cov(\varepsilon_i,\varepsilon_j)=0(i\neq j), \varepsilon_i\sim N(0,\sigma^2)$

普通最小二乘法（Ordinary Least Squares，OLS）

如何根据样本数据信息估计回归系数呢？直觉告诉我们，预测值或估计值 $\hat{Y_i}$ 尽可能接近观测值 $Y_i$ 。OLS的原理就是让残差平方和达到最小，来确定回归分析模型中的参数，也就是回归系数。即：

$min\sum_{i=1}^{n} e_i^2$

下面来估计和推导。由

$e_i=Y_i-\hat{Y_i}=Y_i-\hat{\beta_0}-\hat{\beta_1}X_i$

得到残差平方和：

$\sum_{i=1}^{n} e_i^2=\sum_{i=1}^{n} (Y_i-\hat{\beta_0}-\hat{\beta_1}X_i)^2$

对于给定的样本， $\sum_{i=1}^{n} e_i^2$ 是关于 $\hat{\beta_0},\hat{\beta_1}$ 的二元函数。即：

$f(\hat{\beta_0},\hat{\beta_1})=\sum (Y_i-\hat{\beta_0}-\hat{\beta_1}X_i)^2$

根据最小二乘法原理，要求 $\hat{\beta_0},\hat{\beta_1}$ 使得 $\sum_{i=1}^{n} e_i^2$ 最小。借助微积分求极值方法。上式两边分别对 $\hat{\beta_0},\hat{\beta_1}$ 求偏导数，如下：

$\frac{\partial f}{\partial \hat{\beta_0}}=0$ ， $\frac{\partial f}{\partial \hat{\beta_1}}=0$

求偏导数，得到：

$-2\sum_{i=1}^{n} (Y_i-\hat{\beta_0}-\hat{\beta_1}X_i)=0$

$-2\sum_{i=1}^{n} (Y_i-\hat{\beta_0}-\hat{\beta_1}X_i)X_i=0$

化简后得到：

$\sum_{i=1}^{n}Y_i-n\hat{\beta_0}-\hat{\beta_1}\sum_{i=1}^{n}X_i=0$ （1）

$\sum_{i=1}^{n}X_iY_i-\hat{\beta_0}\sum_{i=1}^{n}X_i-\hat{\beta_1}\sum_{i=1}^{n}X_i^2=0$ （2）

(1)式两边除以n，

$\hat{\beta_0}=\frac{1}{n}\sum_{i=1}^{n}Y_i-\hat{\beta_1}\frac{1}{n}{}\sum_{i=1}^{n}X_i$ ，即： $\hat{\beta_0}=\bar{Y}-\hat{\beta_1}\bar{X}$

将其代入（2）式，求得：

$\hat{\beta_1}=\frac{n\sum_{i=1}^{n}X_iY_i-\sum_{i=1}^{n}X_i\sum_{i=1}^{n}Y_i}{n\sum_{i=1}^{n}X_i^2-(\sum_{i=1}^{n}X_i)^2}$

化简后得到：

$\hat{\beta_1}=\frac{\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^{n}(X_i-\bar{X})^2}$

$\hat{\beta_0}=\bar{Y}-\hat{\beta_1}\bar{X}$

我们以如下样本为例：

拟合优度指标

根据最小二乘法原理，已经估计出回归系数 $\hat{\beta_0},\hat{\beta_1}$ ，从而可以得到样本回归函数： $Y_i=\hat{\beta_0}+\hat{\beta_1}X_i+e_i$

那么，如何判断拟合的效果怎么样呢？这就要使用拟合优度指标 $R^2$ 了，在介绍拟合优度指标之前。我们先证明一个恒等式。

$SST=SSE+SSR$

其中， $SST$ 为总离差平方和，或者总平方和（Total Sum of Squares），如下计算：

$SST=\sum_{i=1}^n(Y_i-\bar{Y})^2$

$SSE$ 为回归平方和，或者解释平方和（Explained Sum of Squares），如下计算：

$SSE=\sum_{i=1}^n(\hat{Y_i}-\bar{Y})^2$

$SSR$ 为残差平方和，或者剩余平方和（Residual Sum of Squares），如下计算：

$SSR=\sum_{i=1}^n(\hat{Y_i}-Y_i)^2$

这个等式表明：因为引入模型，SST被分解成了两部分SSE和SSR。证明思路也是如此。

$SST=\sum_{i=1}^n(Y_i-\bar{Y})^2$

$=\sum_{i=1}^n[(Y_i-\hat{Y_i})+(\hat{Y_i}-\bar{Y})]^2$

$=\sum_{i=1}^n(Y_i-\hat{Y_i})^2+\sum_{i=1}^n(\hat{Y_i}-\bar{Y})^2+2\sum_{i=1}^n(Y_i-\hat{Y_i})(\hat{Y_i}-\bar{Y})$

$=SSR+SSE+2\sum_{i=1}^n(Y_i-\hat{Y_i})(\hat{Y_i}-\bar{Y})$

现在只需要证明最后一项为0即可，根据线性回归分析模型中的如下三个结论：

$\hat{Y_i}=\hat{\beta_0}+\hat{\beta_1}X_i$

$\hat{\beta_0}=\bar{Y}-\hat{\beta_1}\bar{X}$

$\hat{\beta_1}=\frac{\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^{n}(X_i-\bar{X})^2}$

有：

$\hat{Y_i}-\bar{Y}=\hat{\beta_1}(X_i-\bar{X})$

$Y_i-\hat{Y_i}=(Y_i-\bar{Y})-(\hat{Y_i}-\bar{Y})=(Y_i-\bar{Y})-\hat{\beta_1}(X_i-\bar{X})$

因此

$2\sum_{i=1}^n(Y_i-\hat{Y_i})(\hat{Y_i}-\bar{Y})$

$=2\sum_{i=1}^n[\hat{\beta_1}(X_i-\bar{X})][(Y_i-\bar{Y})-\hat{\beta_1}(X_i-\bar{X})]$

$=2\hat{\beta_1}[\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})-\hat{\beta_1}\sum_{i=1}^n(X_i-\bar{X})^2]$

$=2\hat{\beta_1}*0=0$

所以， $SST=SSE+SSR$

因为在样本给定的情况下，SST不会变，而最小二乘法原理是使得残差平方和最小，即SSR最小，也就是SSE最大。我们如下定义线性回归拟合优度指标 $R^2$ ：

$R^2=\frac{SSE}{SST}=1-\frac{SSR}{SST}$

显然 $R^2\in[0,1]$ ， $R^2$ 越大，拟合效果越好。一般来说，如果 $R^2$ 大于0.8，则说明拟合效果非常好。

回归系数估计量的性质

回归系数估计量的线性性

回归系数 $\beta_0,\beta_1$ 的估计量 $\hat{\beta_0},\hat{\beta_1}$ 是随机变量 $Y_i$ 的线性函数，这就是所谓的回归系数估计量的线性性。先给出结论：

$\hat{\beta_1}=\sum_{i=1}^{n}k_iY_i$ ，其中 $k_i=\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}$

$\hat{\beta_0}=\sum_{i=1}^{n}h_iY_i$ ，其中 $h_i=\frac{1}{n}-k_i\bar{X}$

下面一一证明。

（1）先证明估计量 $\hat{\beta_1}$ 的线性性。根据OLS得到的 $\hat{\beta_1}$ 如下：

$\hat{\beta_1}=\frac{\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^{n}(X_i-\bar{X})^2}$

将上式分子拆开，得到：

$\hat{\beta_1}=\frac{\sum_{i=1}^{n}(X_i-\bar{X})Y_i-\sum_{i=1}^{n}(X_i-\bar{X})\bar{Y}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}$

注意到： $\sum_{i=1}^{n}(X_i-\bar{X})\bar{Y}=\bar{Y}\sum_{i=1}^{n}(X_i-\bar{X})=\bar{Y}(\sum_{i=1}^{n}X_i-n\bar{X})=0$

所以得到：

$\hat{\beta_1}=\frac{\sum_{i=1}^{n}(X_i-\bar{X})Y_i}{\sum_{i=1}^{n}(X_i-\bar{X})^2}=\sum_{i=1}^{n}\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}Y_i$

如果令 $k_i=\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}$ ，则 $k_i$ 只与自变量有关，与 $Y_i$ 无关，最终得到：

$\hat{\beta_1}=\sum_{i=1}^{n}k_iY_i$

可以看出回归系数估计量 $\hat{\beta_1}$ 是随机变量 $Y_i$ 的线性函数。

（2）证明估计量 $\hat{\beta_0}$ 的线性性。根据OLS得到的 $\hat{\beta_0}$ 如下：

$\hat{\beta_0}=\bar{Y}-\hat{\beta_1}\bar{X}$

将

$\bar{Y}=\frac{1}{n}\sum_{i=1}^{n}Y_i$ （平均值的定义）

$\hat{\beta_1}=\sum_{i=1}^{n}k_iY_i$ （估计量 $\hat{\beta_1}$ 的线性性）

代入上式，得到：

$\hat{\beta_0}=\frac{1}{n}\sum_{i=1}^{n}Y_i-\bar{X}\sum_{i=1}^{n}k_iY_i$

$=\sum_{i=1}^{n}(\frac{1}{n}-k_i\bar{X})Y_i$

如果令 $h_i=\frac{1}{n}-k_i\bar{X}$ ，则 $h_i$ 只与自变量有关，与 $Y_i$ 无关，得到

$\hat{\beta_0}=\sum_{i=1}^{n}h_iY_i$

可以看出回归系数估计量 $\hat{\beta_0}$ 是随机变量 $Y_i$ 的线性函数。

回归系数估计量的无偏性

如果估计量的均值等于总体参数，则称估计量就是无偏估计量，对于回归系数估计量来说，就是

$E(\hat{\beta_0})=\beta_0$

$E(\hat{\beta_1})=\beta_1$

怎么理解无偏性呢。我们以 $\hat{\beta_1}$ 为例， $\hat{\beta_1}$ 是使用样本数据估计得到的一个估计值，它可能比真实的总体参数 $\beta_0$ 要大，如果换一组样本数据， $\hat{\beta_1}$ 的估计值可能就比真实的总体参数 $\beta_0$ 要小，当然，也可能是相等的，如果通过换更多组的样本数据，得到很多个 $\hat{\beta_1}$ ，虽然大小不一，但是它们的均值是真实值的总体参数。也就是无论你怎么更换样本数据， $\hat{\beta_1}$ 的值在真实值左右摆动。

（1）先证明估计量 $\hat{\beta_1}$ 的无偏性

由回归系数估计量的线性性

$\hat{\beta_1}=\sum_{i=1}^{n}k_iY_i$ ，其中 $k_i=\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}$

以及

$Y_i=\beta_0+\beta_1X_i+\varepsilon_i$

得到

$\hat{\beta_1}=\sum_{i=1}^{n}k_i(\beta_0+\beta_1X_i+\varepsilon_i)$

$=\beta_0\sum_{i=1}^{n}k_i+\beta_1\sum_{i=1}^{n}k_iX_i+\sum_{i=1}^{n}k_i\varepsilon_i$

因为

$k_i=\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}$

容易验证：

$\sum_{i=1}^{n}k_i=\sum_{i=1}^{n}\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}=\frac{\sum_{i=1}^{n}(X_i-\bar{X})}{\sum_{i=1}^{n}(X_i-\bar{X})^2}=0$ ， $\sum_{i=1}^{n}k_iX_i=1$ ，

所以得到：

$\hat{\beta_1}=\beta_1+\sum_{i=1}^{n}k_i\varepsilon_i$ （该式表明了估计量与真实值之间的关系）

上式两边取期望，根据期望性质，得到：

$E(\hat{\beta_1})=E(\beta_1+\sum_{i=1}^{n}k_i\varepsilon_i)=E(\beta_1)+E(\sum_{i=1}^{n}k_i\varepsilon_i)$

$=\beta_1+\sum_{i=1}^{n}E(k_i\varepsilon_i)=\beta_1+\sum_{i=1}^{n}k_iE(\varepsilon_i)$

根据模型假定 $\varepsilon_i\sim N(0,\sigma^2)$ ， $E(\varepsilon_i)=0$ ，得到

$E(\hat{\beta_1})=\beta_1$

（2）证明估计量 $\hat{\beta_0}$ 的无偏性

由回归系数估计量的线性性

$\hat{\beta_0}=\sum_{i=1}^{n}h_iY_i$ ，其中 $h_i=\frac{1}{n}-k_i\bar{X}$

以及

$Y_i=\beta_0+\beta_1X_i+\varepsilon_i$

得到：

$\hat{\beta_0}=\sum_{i=1}^{n}h_i(\beta_0+\beta_1X_i+\varepsilon_i)$

$=\beta_0\sum_{i=1}^{n}h_i+\beta_1\sum_{i=1}^{n}h_iX_i+\sum_{i=1}^{n}h_i\varepsilon_i$

容易验证：

$\sum_{i=1}^{n}h_i=\sum_{i=1}^{n}(\frac{1}{n}-k_i\bar{X})=1$

$\sum_{i=1}^{n}h_iX_i=\sum_{i=1}^{n}(\frac{1}{n}-k_i\bar{X})X_i=\frac{1}{n}\sum_{i=1}^{n}X_i-\bar{X}\sum_{i=1}^{n}k_iX_i=0$

得到：

$\hat{\beta_0}=\beta_0+\sum_{i=1}^{n}h_i\varepsilon_i$ （该式表明了估计量与真实值之间的关系）

上式两边取期望，所以

$E(\hat{\beta_0})=E(\beta_0)+E(\sum_{i=1}^{n}h_i\varepsilon_i)$

所以

$E(\hat{\beta_0})=\beta_0$

回归系数估计量的有效性

所谓回归系数估计量的有效性是指，在所有关于总体参数真实值 $\beta_0$ ， $\beta_1$ 的无偏估计 $\hat{\beta_0}$ ， $\hat{\beta_1}$ 中， $\hat{\beta_0}$ ， $\hat{\beta_1}$ 的方差 $Var(\hat{\beta_0})$ ， $Var(\hat{\beta_1})$ 最小。我们先给出使用OLS得到的回归系数估计量的方差。

$Var(\hat{\beta_1})=\frac{\sigma^2}{\sum_{i=1}^{n}(X_i-\bar{X})^2}$

$Var(\hat{\beta_0})=\frac{\sigma^2\sum_{i=1}^{n}X_i^2}{n\sum_{i=1}^{n}(X_i-\bar{X})^2}$

（1） $\hat{\beta_1}$ 的方差 $Var(\hat{\beta_1})$

因为估计量 $\hat{\beta_1}$ 与真实值 $\beta_1$ 有如下关系

$\hat{\beta_1}=\beta_1+\sum_{i=1}^{n}k_i\varepsilon_i$

两边取方差，得到

$Var(\hat{\beta_1})=Var(\beta_1+\sum_{i=1}^{n}k_i\varepsilon_i)=Var(\beta_1)+Var(\sum_{i=1}^{n}k_i\varepsilon_i)$

$=\sum_{i=1}^{n}Var(k_i\varepsilon_i)=\sum_{i=1}^{n}k_i^2Var(\varepsilon_i)$

根据模型假定 $Var(\varepsilon_i)=\sigma^2$ ，所以

$Var(\hat{\beta_1})=\sigma^2\sum_{i=1}^{n}k_i^2$

因为

$k_i=\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}$

得到：

$\sum_{i=1}^{n}k_i^2=\sum_{i=1}^{n}[\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}]^2=\frac{1}{\sum_{i=1}^{n}(X_i-\bar{X})^2}$

最终

$Var(\hat{\beta_1})=\frac{\sigma^2}{\sum_{i=1}^{n}(X_i-\bar{X})^2}$

（2） $\hat{\beta_0}$ 的方差 $Var(\hat{\beta_0})$

因为估计量 $\hat{\beta_0}$ 与真实值 $\beta_0$ 有如下关系

$\hat{\beta_0}=\beta_0+\sum_{i=1}^{n}h_i\varepsilon_i$ ，其中 $h_i=\frac{1}{n}-k_i\bar{X}$ ， $k_i=\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}$

两边取方差，有

$Var(\hat{\beta_0})=Var(\beta_0+\sum_{i=1}^{n}h_i\varepsilon_i)=Var(\beta_0)+Var(\sum_{i=1}^{n}h_i\varepsilon_i)$

$=\sum_{i=1}^{n}h_i^2Var(\varepsilon_i)$

$=\sigma^2\sum_{i=1}^{n}h_i^2=\sigma^2\sum_{i=1}^{n}(\frac{1}{n}-k_i\bar{X})^2=\sigma^2\sum_{i=1}^{n}(\frac{1}{n^2}-\frac{2k_i\bar{X}}{n}+k_i^2\bar{X}^2)$

$=\sigma^2(\frac{1}{n}-\sum_{i=1}^{n}\frac{2k_i\bar{X}}{n}+\sum_{i=1}^{n}k_i^2\bar{X}^2)$

$=\sigma^2(\frac{1}{n}+\bar{X}^2\sum_{i=1}^{n}k_i^2)$

$=\sigma^2(\frac{1}{n}+\frac{\bar{X}^2}{\sum_{i=1}^{n}(X_i-\bar{X})^2})$

$=\sigma^2\frac{n\bar{X}^2+\sum_{i=1}^{n}(X_i-\bar{X})^2}{n\sum_{i=1}^{n}(X_i-\bar{X})^2}$

$=\frac{\sigma^2\sum_{i=1}^{n}X_i^2}{n\sum_{i=1}^{n}(X_i-\bar{X})^2}$

即：

$Var(\hat{\beta_0})=\frac{\sigma^2\sum_{i=1}^{n}X_i^2}{n\sum_{i=1}^{n}(X_i-\bar{X})^2}$

（3） $\hat{\beta_1}$ 有效性

设 $\hat{\beta_1}^*$ 是使用其他方法得到的 $\beta_1$ 的线性无偏估计量。由线性性可知： $\hat{\beta_1}^*=\sum_{i=1}^nw_iY_i$ ，该式两边取方差，得到

$Var(\hat{\beta_1}^*)=Var(\sum_{i=1}^nw_iY_i)=Var(\sum_{i=1}^n[(w_i-k_i)+k_i]Y_i)$

$=\sum_{i=1}^n[(w_i-k_i)^2Var(Y_i)+Var(k_iY_i)]$

$=\sum_{i=1}^n(w_i-k_i)^2Var(Y_i)+Var(\hat{\beta_1})$

$\geq Var(\hat{\beta_1})$

(4) $\hat{\beta_0}$ 有效性

可类似证明。

由上面的推导知道：

$\hat{\beta_1}=\beta_1+\sum_{i=1}^{n}k_i\varepsilon_i$

$\hat{\beta_0}=\beta_0+\sum_{i=1}^{n}h_i\varepsilon_i$

可以看出 $\hat{\beta_0}$ ， $\hat{\beta_1}$ 都是干扰项 $\varepsilon_i$ 的线性函数。而 $\varepsilon_i\sim N(0,\sigma^2)$ ，由正态分布的性质，得到回归系数估计量 $\hat{\beta_0}$ ， $\hat{\beta_1}$ 均服从如下正态分布：

$\hat{\beta_0}\sim N(\beta_0,\frac{\sigma^2\sum_{i=1}^{n}X_i^2}{n\sum_{i=1}^{n}(X_i-\bar{X})^2})$

$\hat{\beta_1}\sim N(\beta_1,\frac{\sigma^2}{\sum_{i=1}^{n}(X_i-\bar{X})^2})$

这里遗憾的是，回归系数估计量 $\hat{\beta_0}$ ， $\hat{\beta_1}$ 的方差中的扰动项方差 $\sigma^2$ 是未知的。

回归系数估计量检验（t检验）

估计出一元回归分析的回归系数后，需要对其进行检验。假设问题如下：

（1）原假设 $H_0$ ： $\beta_1=0$

（2）备择假设 $H_1$ ： $\beta_1\neq 0$

$\beta_0$ 类似，这里不再累述。

构造如下统计量：

$t=\frac{\hat{\beta_1}}{S_{\hat{\beta_1}}}=\frac{\hat{\beta_1}}{\sqrt{\frac{\sum_{i=1}^ne_i^2}{(n-2)\sum_{i=1}^{n}(X_i-\bar{X})^2}}}$

其中 $\hat{\beta_1}=\frac{\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^{n}(X_i-\bar{X})^2}$ ， $S_{\hat{\beta_1}}=\sqrt{\frac{\sum_{i=1}^ne_i^2}{(n-2)\sum_{i=1}^{n}(X_i-\bar{X})^2}}$

下面我们来证明该统计量在原假设下服从自由度为n-2的t分布。

参见《一些常见分布-正态分布、对数正态分布、伽马分布、卡方分布、t分布、F分布等》

根据t分布的如下定义：

只需要分子构造一个标准正态分布 $G\sim N(0,1)$ ，分母构造一个自由度为n-2的卡方分布 $H\sim \chi (n-2)$ ，则如下 $Z$ 分布

$Z=\frac{G}{\sqrt{H/(n-2)}}\sim t(n-2)$

就是一个自由度为n-2的t分布。

因为

$\hat{\beta_1}\sim N(\beta_1,\frac{\sigma^2}{\sum_{i=1}^{n}(X_i-\bar{X})^2})$

则如下构造的 $G$ 分布服从标准正态分布

$G=\frac{\hat{\beta_1}-\beta_1}{\sqrt{\frac{\sigma^2}{\sum_{i=1}^{n}(X_i-\bar{X})^2}}}\sim N(0,1)$

构造如下H分布：

$H=\frac{1}{\sigma^2}\sum_{i=1}^ne_i^2$

则Z分布如下：

$Z=\frac{G}{\sqrt{H/(n-2)}}=\frac{\hat{\beta_1}-\beta_1}{\sqrt{\frac{\sigma^2}{\sum_{i=1}^{n}(X_i-\bar{X})^2}}}\frac{1}{\sqrt{\frac{1}{\sigma^2}\sum_{i=1}^ne_i^2/(n-2)}}$