机器学习/数据分析--用通俗语言讲解时间序列自回归(AR)模型，并用其预测天气，拟合度98%+

时间序列在回归预测的领域的重要性，不言而喻，在数学建模中使用及其频繁，但是你真的了解ARIMA、AR、MA么？ACF图你会看么？？时间序列数据如何构造？？？，我打过不少数学建模，但是都没有弄得很清楚；
这篇将详细讲解了基础模型—AR的原理.

文章目录

1、自回归(AR)详解
- 1、简要说明
- 2、原理讲解
- 3、ACF图
2、案例
- 1、数据预处理
- - 1、导入库
  - 2、读取数据且预处理
- 2、实现自回归模型
- 3、模型预测
- 4、数据分析和可视化
- - 1、原始数据时间序列图
  - 2、训练集和测试集的预测结构对比图
  - 3、残差分析
  - 4、正相关(ACF)
- 5、结果分析

1、自回归(AR)详解

1、简要说明

什么是自回归？？

自回归：通过过去的数据预测当下的数据，是一个时间序列的基础模型，但是很有效，能够有效的捕捉数据随着时间的变化趋势。

举例解释：

在日常生活中，我们知道一般情况下，当下的气温和前几天的温度是有关系的，比如说这3天很热，明天大概率也会很热，自回归(AR)就是这样的模型，通过前几天的气温预测今天的气温，如：

今天：20度，记为a，前天：18度，记为b，大前天：22度，记为c，需要预测明天的气温
明天气温 = k₁ * a + k₂ * b + k₃* c + 随机误差， k₁ 、 k₂ 、k₃ 是权重，这个可以通过计算得出。

2、原理讲解

自回归公式(很像多元线性回归)：

$y_t=c+\phi_1y_{t-1}+\phi_2y_{t-2}+\cdots+\phi_py_{t-p}+\epsilon_t$

$\phi_p$ 这是自回归系数，表示当下p个时间点的数据对要预测的y_t 这个时间点的重要程度；
c：常数项，就如我们一元回归方差，y = ax + b中的那个b；
$\epsilon_t$ ：误差项，用来随机生成数据，模拟波动，让预测效果更加贴近实际；
p：滞后阶数，表示用前p个数来预测当前的数据。

通过自回归公式，我当时一眼一看，这不就是多元线性回归么？实际也确实是，只是他添加类误差项而已，实际求解的时候，也是通过最小二乘回归求解系数的。

下面是一个用自回归去探究气温的一组案例，需要关注点有两个如下：

怎么构造时间数据？？？
怎么利用最小二乘回归去求解系数？？？

3、ACF图

通过查看数的ACF图，在不同用领域有不同的用处，如下：

白噪声过程：时间序列是随机的，没有可预测的结构，即数据之间没有关系。
模型拟合良好：模型已经很好地捕捉了数据中的所有相关信息，残差是随机的。
数据本身没有自相关性：数据中的每个观测值都是独立的，没有时间上的依赖关系。
数据预处理的影响：预处理有效地去除了数据中的自相关性。

2、案例

数据：该数据描述的是这几百年的地球平均气温，下载地址：kaggle；

目的：大陆平均气温数据的探究，更加理解AR原理以及数学公式。

1、数据预处理

1、导入库

import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
from sklearn.model_selection import train_test_split

2、读取数据且预处理

data_df = pd.read_csv('GlobalTemperatures.csv')
data_df

	dt	LandAverageTemperature	LandAverageTemperatureUncertainty	LandMaxTemperature	LandMaxTemperatureUncertainty	LandMinTemperature	LandMinTemperatureUncertainty	LandAndOceanAverageTemperature	LandAndOceanAverageTemperatureUncertainty
0	1750-01-01	3.034	3.574	NaN	NaN	NaN	NaN	NaN	NaN
1	1750-02-01	3.083	3.702	NaN	NaN	NaN	NaN	NaN	NaN
2	1750-03-01	5.626	3.076	NaN	NaN	NaN	NaN	NaN	NaN
3	1750-04-01	8.490	2.451	NaN	NaN	NaN	NaN	NaN	NaN
4	1750-05-01	11.573	2.072	NaN	NaN	NaN	NaN	NaN	NaN
...	...	...	...	...	...	...	...	...	...
3187	2015-08-01	14.755	0.072	20.699	0.110	9.005	0.170	17.589	0.057
3188	2015-09-01	12.999	0.079	18.845	0.088	7.199	0.229	17.049	0.058
3189	2015-10-01	10.801	0.102	16.450	0.059	5.232	0.115	16.290	0.062
3190	2015-11-01	7.433	0.119	12.892	0.093	2.157	0.106	15.252	0.063
3191	2015-12-01	5.518	0.100	10.725	0.154	0.287	0.099	14.774	0.062

3192 rows × 9 columns

# 只保留日期和LanAverageTemperatrue
data_df = data_df[['dt', 'LandAverageTemperature']]

# 查看数据信息
data_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3192 entries, 0 to 3191
Data columns (total 2 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   dt                      3192 non-null   object 
 1   LandAverageTemperature  3180 non-null   float64
dtypes: float64(1), object(1)
memory usage: 50.0+ KB

# 缺失值较少，采用前置填充方法
data_df = data_df.fillna(method='ffill')

# 时间转化为datatime格式
data_df['dt'] = pd.to_datetime(data_df['dt'])
# 按照日期排序，确保日期按照顺序
data_df = data_df.sort_values(by='dt')

# 设置日期索引，方便快速查询
data_df.set_index('dt', inplace=True)

# 为了更方便后面展示，这里选取最近1000条数据，全部展示，后面绘图，全都堆到一起
data_df = data_df.tail(1000)

2、实现自回归模型

# 深刻理解代码
def create_lagged_features(data, lag):
    x = []
    y = []
    for i in range(lag, len(data)):
        x.append(data[i - lag : i])
        y.append(data[i])
    return np.array(x), np.array(y)

# 使用 5 阶(联系数学公式) 自回归模型
lag = 5
# 提取特征值，目标值(也就是自变量，因变量)
all_temperature_data = data_df['LandAverageTemperature'].values

# 获取自变量、因变量
X, Y = create_lagged_features(all_temperature_data, lag)
# 分割数据集
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

在实际应用中，我们通常会先添加常数项，然后再计算回归系数，因为这样可以保证模型能够捕捉到数据的全局趋势。

# 使用最小二乘法拟合 自回归 模型
def fit_regresiion(x_train, y_train):
    # 添加常数项, b(结合公式)，添加一项，为了适应维度
    x_train = np.c_[np.ones(x_train.shape[0]), x_train]
    # 计算回归系数，结合公式 np.linalg.inv 求逆
    beta = np.linalg.inv(x_train.T @ x_train) @ x_train.T @ y_train
    return beta

# 拟合，得到回归系数
beta = fit_regresiion(x_train, y_train)
beta

输出：

array([ 5.07449781, -0.04255702, -0.22825367, -0.2961153 ,  0.06135681,
        0.93721175])

3、模型预测

def predict_ar_model(x, beta):
    # 添加常数项
    x = np.c_[np.ones(x.shape[0]), x]  # 添加常数项
    # 预测
    y_pred = x @ beta   # 自己相乘，结合公式
    return y_pred

# 测试集、训练集测试
y_pred_train = predict_ar_model(x_train, beta)
y_predict_test = predict_ar_model(x_test, beta)

4、数据分析和可视化

1、原始数据时间序列图

plt.figure(figsize=(10, 6))
plt.plot(data_df.index, data_df['LandAverageTemperature'], color='orange', label='Temperature')
plt.title('Global Land Average Temperature Over Time')
plt.xlabel('Year')
plt.ylabel('Temperature')
plt.legend()
plt.grid(True)
plt.show()

在这里插入图片描述

2、训练集和测试集的预测结构对比图

plt.figure(figsize=(10, 6))
plt.plot(y_train, label='Actual Train', color='blue')
plt.plot(y_pred_train, label='Predicr Train', color='red', linestyle='dashed')
plt.title('AR Model')
plt.xlabel('Time')
plt.ylabel('Temperature')
plt.grid(True)
plt.show()

plt.figure(figsize=(10, 6))
plt.plot(y_test, label='Actual Test', color='blue')
plt.plot(y_predict_test, label='Predicr Test', color='red', linestyle='dashed')
plt.title('AR Model')
plt.xlabel('Time')
plt.ylabel('Temperature')
plt.grid(True)
plt.show()

在这里插入图片描述

3、残差分析

残差图分析误差

residual = y_test - y_predict_test   # 残差计算
plt.figure(figsize=(10, 6))
plt.plot(residual, color='green', label='Residual')
plt.title('Residual of AR on Test Data')
plt.xlabel('Time')
plt.ylabel('Residual')
plt.legend()
plt.grid(True)
plt.show()

在这里插入图片描述

4、正相关(ACF)

检查残差的自相关性，查看是存在未捕捉时间特征

from statsmodels.graphics.tsaplots import plot_acf

plt.figure(figsize=(10, 6))
plot_acf(residual, lags=50)   # 展示前50个滞后
plt.title('ACF OF RESIDUAL')
plt.grid(True)
plt.show()

<Figure size 1000x600 with 0 Axes>

在这里插入图片描述

默认置信区间，显著性水平是5%
acf图中，值接近为0，几乎全在置信区间内，说明残差数据之间没有关系，残差是随机的，模型有效的捕捉到了时间特征

5、结果分析

from sklearn.metrics import mean_squared_error, r2_score

mse = mean_squared_error(y_test, y_predict_test)
r2 = r2_score(y_test, y_predict_test)

print('mse: ', mse)
print('r2', r2)

mse:  0.19718326089184698
r2 0.9889418324562267

综上说明模型有效挖掘了天气的规律