机器学习/数据分析--用通俗语言讲解时间序列自回归(AR)模型,并用其预测天气,拟合度98%+

  • 时间序列在回归预测的领域的重要性,不言而喻,在数学建模中使用及其频繁,但是你真的了解ARIMA、AR、MA么?ACF图你会看么?? 时间序列数据如何构造???,我打过不少数学建模,但是都没有弄得很清楚;
  • 这篇将详细讲解了基础模型—AR的原理.

文章目录

  • 1、自回归(AR)详解
    • 1、简要说明
    • 2、原理讲解
    • 3、ACF图
  • 2、案例
    • 1、数据预处理
      • 1、导入库
      • 2、读取数据且预处理
    • 2、实现自回归模型
    • 3、模型预测
    • 4、数据分析和可视化
      • 1、原始数据时间序列图
      • 2、训练集和测试集的预测结构对比图
      • 3、残差分析
      • 4、正相关(ACF)
    • 5、结果分析

1、自回归(AR)详解

1、简要说明

  • 什么是自回归??

自回归:通过过去的数据预测当下的数据,是一个时间序列的基础模型,但是很有效,能够有效的捕捉数据随着时间的变化趋势。

  • 举例解释:

在日常生活中,我们知道一般情况下,当下的气温和前几天的温度是有关系的,比如说这3天很热,明天大概率也会很热,自回归(AR)就是这样的模型,通过前几天的气温预测今天的气温,如:

  1. 今天:20度,记为a,前天:18度,记为b,大前天:22度,记为c,需要预测明天的气温
  2. 明天气温 = k1 * a + k2 * b + k3* c + 随机误差, k1 、 k2 、k3 是权重,这个可以通过计算得出。

2、原理讲解

自回归公式(很像多元线性回归):

y t = c + ϕ 1 y t − 1 + ϕ 2 y t − 2 + ⋯ + ϕ p y t − p + ϵ t y_t=c+\phi_1y_{t-1}+\phi_2y_{t-2}+\cdots+\phi_py_{t-p}+\epsilon_t yt=c+ϕ1yt1+ϕ2yt2++ϕpytp+ϵt

  • ϕ p \phi_p ϕp这是自回归系数,表示当下p个时间点的数据对要预测的yt 这个时间点的重要程度;
  • c:常数项,就如我们一元回归方差,y = ax + b中的那个b
  • ϵ t \epsilon_t ϵt:误差项,用来随机生成数据,模拟波动,让预测效果更加贴近实际;
  • p:滞后阶数,表示用前p个数来预测当前的数据。

通过自回归公式,我当时一眼一看,这不就是多元线性回归么?实际也确实是,只是他添加类误差项而已,实际求解的时候,也是通过最小二乘回归求解系数的。

下面是一个用自回归去探究气温的一组案例,需要关注点有两个如下:

  • 怎么构造时间数据???
  • 怎么利用最小二乘回归去求解系数???

3、ACF图

通过查看数的ACF图,在不同用领域有不同的用处,如下:

  • 白噪声过程:时间序列是随机的,没有可预测的结构,即数据之间没有关系。
  • 模型拟合良好:模型已经很好地捕捉了数据中的所有相关信息,残差是随机的。
  • 数据本身没有自相关性:数据中的每个观测值都是独立的没有时间上的依赖关系。
  • 数据预处理的影响:预处理有效地去除了数据中的自相关性

2、案例

数据:该数据描述的是这几百年的地球平均气温,下载地址:kaggle;

目的:大陆平均气温数据的探究,更加理解AR原理以及数学公式。

1、数据预处理

1、导入库

import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
from sklearn.model_selection import train_test_split

2、读取数据且预处理

data_df = pd.read_csv('GlobalTemperatures.csv')
data_df
dtLandAverageTemperatureLandAverageTemperatureUncertaintyLandMaxTemperatureLandMaxTemperatureUncertaintyLandMinTemperatureLandMinTemperatureUncertaintyLandAndOceanAverageTemperatureLandAndOceanAverageTemperatureUncertainty
01750-01-013.0343.574NaNNaNNaNNaNNaNNaN
11750-02-013.0833.702NaNNaNNaNNaNNaNNaN
21750-03-015.6263.076NaNNaNNaNNaNNaNNaN
31750-04-018.4902.451NaNNaNNaNNaNNaNNaN
41750-05-0111.5732.072NaNNaNNaNNaNNaNNaN
..............................
31872015-08-0114.7550.07220.6990.1109.0050.17017.5890.057
31882015-09-0112.9990.07918.8450.0887.1990.22917.0490.058
31892015-10-0110.8010.10216.4500.0595.2320.11516.2900.062
31902015-11-017.4330.11912.8920.0932.1570.10615.2520.063
31912015-12-015.5180.10010.7250.1540.2870.09914.7740.062

3192 rows × 9 columns

# 只保留日期和LanAverageTemperatrue
data_df = data_df[['dt', 'LandAverageTemperature']]
# 查看数据信息
data_df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3192 entries, 0 to 3191
Data columns (total 2 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   dt                      3192 non-null   object 
 1   LandAverageTemperature  3180 non-null   float64
dtypes: float64(1), object(1)
memory usage: 50.0+ KB
# 缺失值较少,采用前置填充方法
data_df = data_df.fillna(method='ffill')
# 时间转化为datatime格式
data_df['dt'] = pd.to_datetime(data_df['dt'])
# 按照日期排序,确保日期按照顺序
data_df = data_df.sort_values(by='dt')
# 设置日期索引,方便快速查询
data_df.set_index('dt', inplace=True)

# 为了更方便后面展示,这里选取最近1000条数据,全部展示,后面绘图,全都堆到一起
data_df = data_df.tail(1000)

2、实现自回归模型

# 深刻理解代码
def create_lagged_features(data, lag):
    x = []
    y = []
    for i in range(lag, len(data)):
        x.append(data[i - lag : i])
        y.append(data[i])
    return np.array(x), np.array(y)
# 使用 5 阶(联系数学公式) 自回归模型
lag = 5
# 提取特征值,目标值(也就是自变量,因变量)
all_temperature_data = data_df['LandAverageTemperature'].values
# 获取自变量、因变量
X, Y = create_lagged_features(all_temperature_data, lag)
# 分割数据集
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

在实际应用中,我们通常会先添加常数项,然后再计算回归系数,因为这样可以保证模型能够捕捉到数据的全局趋势。

# 使用最小二乘法拟合 自回归 模型
def fit_regresiion(x_train, y_train):
    # 添加常数项, b(结合公式),添加一项,为了适应维度
    x_train = np.c_[np.ones(x_train.shape[0]), x_train]
    # 计算回归系数,结合公式 np.linalg.inv 求逆
    beta = np.linalg.inv(x_train.T @ x_train) @ x_train.T @ y_train
    return beta
# 拟合,得到回归系数
beta = fit_regresiion(x_train, y_train)
beta

输出:

array([ 5.07449781, -0.04255702, -0.22825367, -0.2961153 ,  0.06135681,
        0.93721175])

3、模型预测

def predict_ar_model(x, beta):
    # 添加常数项
    x = np.c_[np.ones(x.shape[0]), x]  # 添加常数项
    # 预测
    y_pred = x @ beta   # 自己相乘,结合公式
    return y_pred

# 测试集、训练集测试
y_pred_train = predict_ar_model(x_train, beta)
y_predict_test = predict_ar_model(x_test, beta)

4、数据分析和可视化

1、原始数据时间序列图

plt.figure(figsize=(10, 6))
plt.plot(data_df.index, data_df['LandAverageTemperature'], color='orange', label='Temperature')
plt.title('Global Land Average Temperature Over Time')
plt.xlabel('Year')
plt.ylabel('Temperature')
plt.legend()
plt.grid(True)
plt.show()


在这里插入图片描述

2、训练集和测试集的预测结构对比图

plt.figure(figsize=(10, 6))
plt.plot(y_train, label='Actual Train', color='blue')
plt.plot(y_pred_train, label='Predicr Train', color='red', linestyle='dashed')
plt.title('AR Model')
plt.xlabel('Time')
plt.ylabel('Temperature')
plt.grid(True)
plt.show()

plt.figure(figsize=(10, 6))
plt.plot(y_test, label='Actual Test', color='blue')
plt.plot(y_predict_test, label='Predicr Test', color='red', linestyle='dashed')
plt.title('AR Model')
plt.xlabel('Time')
plt.ylabel('Temperature')
plt.grid(True)
plt.show()


在这里插入图片描述

在这里插入图片描述

3、残差分析

残差图分析误差

residual = y_test - y_predict_test   # 残差计算
plt.figure(figsize=(10, 6))
plt.plot(residual, color='green', label='Residual')
plt.title('Residual of AR on Test Data')
plt.xlabel('Time')
plt.ylabel('Residual')
plt.legend()
plt.grid(True)
plt.show()


在这里插入图片描述

4、正相关(ACF)

检查残差的自相关性,查看是存在未捕捉时间特征

from statsmodels.graphics.tsaplots import plot_acf

plt.figure(figsize=(10, 6))
plot_acf(residual, lags=50)   # 展示前50个滞后
plt.title('ACF OF RESIDUAL')
plt.grid(True)
plt.show()
<Figure size 1000x600 with 0 Axes>

在这里插入图片描述

  • 默认置信区间,显著性水平是5%
  • acf图中,值接近为0,几乎全在置信区间内,说明残差数据之间没有关系,残差是随机的,模型有效的捕捉到了时间特征

5、结果分析

from sklearn.metrics import mean_squared_error, r2_score

mse = mean_squared_error(y_test, y_predict_test)
r2 = r2_score(y_test, y_predict_test)

print('mse: ', mse)
print('r2', r2)
mse:  0.19718326089184698
r2 0.9889418324562267
  • 综上说明模型有效挖掘了天气的规律

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/890086.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

GS-SLAM论文阅读笔记-MGSO

前言 MGSO首字母缩略词是直接稀疏里程计(DSO)&#xff0c;我们建立的光度SLAM系统和高斯飞溅(GS)的混合。这应该是第一个前端用DSO的高斯SLAM&#xff0c;不知道这个系统的组合能不能打得过ORB-SLAM3&#xff0c;以及对DSO会做出怎么样的改进以适应高斯地图&#xff0c;接下来…

Android一个APP里面最少有几个线程

Android一个APP里面最少有几个线程 参考 https://www.jianshu.com/p/92bff8d6282f https://www.jianshu.com/p/8a820d93c6aa 线程查看 Android一个进程里面最少包含5个线程&#xff0c;分别为&#xff1a; main线程(主线程&#xff09;FinalizerDaemon线程 终结者守护线程…

Golang | Leetcode Golang题解之第462题最小操作次数使数组元素相等II

题目&#xff1a; 题解&#xff1a; func partition(a []int, l, r int) int {x : a[r]i : l - 1for j : l; j < r; j {if a[j] < x {ia[i], a[j] a[j], a[i]}}a[i1], a[r] a[r], a[i1]return i 1 }func randomPartition(a []int, l, r int) int {i : rand.Intn(r-l1…

Android车载——VehicleHal运行流程(Android 11)

1 概述 本篇主要讲解VehicleHal的主要运行流程&#xff0c;包括设置属性、获取属性、订阅属性、取消订阅、持续上报属性订阅等。 2 获取属性流程 2.1 获取属性流程源码分析 作为服务注册到hwServiceManager中的类是VehicleHalManager&#xff0c;所以&#xff0c;CarServic…

【Qt】控件概述(2)—— 按钮类控件

控件概述&#xff08;2&#xff09; 1. PushButton2. RadioButton——单选按钮2.1 使用2.2 区分信号 clicked&#xff0c;clicked(bool)&#xff0c;pressed&#xff0c;released&#xff0c;toggled(bool)2.3 QButtonGroup分组 3. CheckBox——复选按钮 1. PushButton QPushB…

简单粗暴理解GNN、GCN、GAT

GNN 思想&#xff1a;近朱者赤近墨者黑 GNN的流程&#xff1a; 聚合&#xff08;把邻居的信息贴到自己身上来&#xff0c;作为它自己特征的补足&#xff09;更新循环&#xff08;为什么要多次&#xff1f;看以下例子&#xff09; GNN能干嘛&#xff1f; 1.结点分类&#xf…

动态规划lc

先找到规律&#xff0c;然后找边界情况&#xff1b;部分特殊情况分类讨论 *递归 70.爬楼梯 简单 提示 假设你正在爬楼梯。需要 n 阶你才能到达楼顶。 每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢&#xff1f; 示例 1&#xff1a; 输入&#xff1a…

基于yolov8、yolov5的PCB板缺陷检测系统(含UI界面、数据集、训练好的模型、Python代码)

blog.csdnimg.cn/direct/6f53422ed9fd44dc8daad6dc5481c4c9.png) 项目介绍 项目中所用到的算法模型和数据集等信息如下&#xff1a; 算法模型&#xff1a;     yolov8、yolov8 SE注意力机制 或 yolov5、yolov5 SE注意力机制 &#xff0c; 直接提供最少两个训练好的模型…

第十八届 图像像素类型转化于归一

知识点&#xff1a;像素归一化 opencv中提供四种归一的方法 -NORM_MINMAX -NORM_INF -NORM_L1 -NORM_L2 最常用的就是NORM_MINMAX归一的方法 相关的API normalize&#xff1a;void normalize(InputArray src, OutputArray dst, double alpha 1, double beta 0, int n…

关于C语⾔内存函数 memcpy memmove memset memcmp

memcpy使⽤和模拟实现 void * memcpy ( void * destination, const void * source, size_t num ); 函数memcpy从source的位置开始向后复制num个字节的数据到destination指向的内存位置。 这个函数在遇到 \0 的时候并不会停下来。 如果source和destination有任何的重叠&am…

树莓派3b安装ubuntu18.04服务器系统server配置网线连接

下载ubuntu镜像网址 img镜像&#xff0c;即树莓派官方烧录器使用的镜像网址 ubuntu18.04-server&#xff1a;ARM/RaspberryPi - Ubuntu Wiki 其他版本&#xff1a;Index of /ubuntu/releases 下载后解压即可。 发现使用官方烧录器烧录配置时配置wifi无论如何都不能使用&am…

linux入门——“权限”

linux中有权限的概念&#xff0c;最常见的就是安装一些命令的时候需要输入sudo来提权&#xff0c;那么为什么要有这个东西呢&#xff1f; linux是一个多用户操作系统&#xff0c;很多东西看起来是有很多分&#xff0c;但是实际的存储只有一份&#xff08;比如命令&#xff0c;不…

小程序知识付费的优势 知识付费服务 知识付费平台 知识付费方法

在信息爆炸的时代&#xff0c;知识如同繁星点点&#xff0c;璀璨而散落。如何在这片知识的海洋中精准捕捞&#xff0c;成为现代人追求自我提升的迫切需求。小程序知识付费&#xff0c;正是这样一座桥梁&#xff0c;它以独特的优势&#xff0c;让智慧触手可及&#xff0c;轻触未…

【C++差分数组】P1672何时运输的饲料

本文涉及知识点 C差分数组 C算法&#xff1a;前缀和、前缀乘积、前缀异或的原理、源码及测试用例 包括课程视频 P1672何时运输的饲料 原文比较啰嗦&#xff0c;我简述一下&#xff1a; 第x天运来F1(1<F1<1e6)千克的饲料&#xff0c;第D&#xff08;1<2e3)天还剩F2&…

数论与同余 - 离散数学系列(七)

目录 1. 整数的性质 整除与因数 最大公约数与最小公倍数 2. 欧几里得算法 算法步骤 3. 模运算与同余 模运算 同余关系 同余的性质 4. 数论在密码学中的应用 RSA 加密算法 5. 实际应用场景 1. 数字签名 2. 哈希函数与数据完整性 3. 密钥交换 6. 例题与练习 例题…

单链表速通后续!

目录 1>>闲话 2>>头删 3>>查找 4>>在指定位置之前插入 5>>删除指定结点 6>>指定位置之后插入 7>>删除指定位置之后的结点 特别思考&#xff1a; 8>>销毁单链表 Slist.h Slist.c test.c 9>>总结 1>>闲话…

干货|SQL注入思路总结(非常详细)零基础入门到精通,收藏这一篇就够 了

1.SQL注入的业务场景及危害 1.1 什么是SQL注入 SQL注入是服务器端未严格校验客户端发送的数据&#xff0c;而导致服务端SQL语句被恶意修改并成功执行的行为称为SQL注入。 1.2 为什么会有SQL注入 代码对带入SQL语句的参数过滤不严格 未启用框架的安全配置&#xff0c;例如&a…

[面试] java开发面经-1

前言 目录 1.看到你的简历里说使用Redis缓存高频数据&#xff0c;说一下Redis的操作 2.说一下Redis的缓存击穿、缓存穿透、缓存雪崩 3.你的项目中使用了ThreadLocal&#xff0c;那么当有两个请求同时发出时&#xff0c;会怎么处理&#xff0c;可以同时处理两个请求吗 4.使用…

【多线程】多线程(12):多线程环境下使用哈希表

【多线程环境下使用哈希表&#xff08;重点掌握&#xff09;】 可以使用类&#xff1a;“ConcurrentHashMap” ★ConcurrentHashMap对比HashMap和Hashtable的优化点 1.优化了锁的粒度【最核心】 //Hashtable的加锁&#xff0c;就是直接给put&#xff0c;get等方法加上synch…

时间序列预测(一)——线性回归(linear regression)

目录 一、原理与目的 1、线性回归基于两个的假设&#xff1a; 2、线性回归的优缺点: 3、线性回归的主要目的是&#xff1a; 二、损失函数&#xff08;loss function&#xff09; 1、平方误差损失函数&#xff08;忽略了噪声误差&#xff09; 2、均方误差损失函数 三、随…