AI论文速读 | 线性时间序列预测模型分析

论文标题:An Analysis of Linear Time Series Forecasting Models

作者: William Toner, Luke Darlow

机构:爱丁堡大学(Edinburgh),华为研究中心(爱丁堡)

论文链接:https://arxiv.org/abs//2403.14587

Cool Paper:https://papers.cool/arxiv/2403.14587

TL;DR:本文分析了多种线性时间序列预测模型,发现它们在功能上与标准线性回归等价,且闭式解通常优于梯度下降训练的模型。

关键词:线性模型、时间序列预测、功能等价性、模型比较、闭式解、线性回归、特征归一化、DLinear(AAAI23)、FITS(ICLR24 Spotlight)、RLinear、NLinear(AAAI23)。

:这篇论文理论推导很多,AI论文速读只能了解冰山一角,笔者能力有限,推导还望各位读者阅读原文细细品鉴。


🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀
欢迎大家关注时空探索之旅时空探索之旅QRCode

摘要

尽管线性模型很简单,但即使与更深、更昂贵的模型进行比较,线性模型在时间序列预测中也表现良好。 人们已经提出了线性模型的许多变体,通常包括某种形式的特征归一化,以提高模型的泛化能力。 在本文中,我们分析了使用这些线性模型架构可表达的函数集。 通过这样做,我们证明了用于时间序列预测的线性模型的几种流行变体与标准的无约束线性回归是等效的并且在功能上没有区别。 我们描述每个线性变体的模型类。 我们证明每个模型都可以被重新解释为在适当增强的特征集上的无约束线性回归,因此在使用均方损失函数时允许封闭形式的解决方案。 我们提供的实验证据表明,所检查的模型学习几乎相同的解决方案,并最终证明,在 72% 的测试设置中,更简单的封闭式解决方案是出色的预测器。

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决的问题是对线性时间序列预测模型的分析。尽管深度学习模型在许多领域取得了显著的成功,但在时间序列预测方面,简单的线性模型仍然表现出色,有时甚至优于复杂的深度模型。论文中指出,已经提出了多种线性模型的变体,这些变体通常包括某种形式的特征归一化,以提高模型的泛化能力。然而,这些变体之间的实际性能差异并不明显。

论文的主要目标是:

  1. 从数学角度深入分析几种流行的线性时间序列预测模型。
  2. 证明这些模型在功能上基本上是等价的,并且与标准的无约束线性回归无法区分。
  3. 通过实验证据表明这些模型在训练时倾向于学习几乎相同的解。
  4. 展示在使用均方损失函数时,闭式解(closed-form solutions)通常是优于使用梯度下降训练的模型。

总的来说,论文旨在提供对线性时间序列预测模型的深入数学分析,并证明从功能和性能的角度来看,这些模型之间并没有实质性的差异,它们都可以被视为弱约束的线性回归模型。

Q: 有哪些相关研究?

A: 这篇论文提到了以下相关研究:

  1. Zeng et al. (2023): 这项工作引入了两种线性模型,DLinear 和 NLinear,它们已经成为时间序列预测领域广泛使用的基准。这项研究表明线性模型在某些情况下与复杂的Transformer架构相当或更优。
  2. Reversible Instance Normalisation (RevInv): 这是一种特征归一化技术,通常可以提高时间序列预测的性能。它通过对输入特征进行标准化(零均值、单位标准差),然后在模型的最后步骤中逆转这一标准化过程(可选的学习仿射变换)。
  3. Li et al. (2023): 这项研究重新审视了长期时间序列预测,探讨了RevInv和通道独立性(Channel Independence, CI)对线性模型的影响。他们提出了RLinear模型,该模型使用RevInv,并且测试了CI对一些数据集(通常具有更多通道和/或复杂性)的泛化能力的提升。
  4. Xu et al. (2023): 最近提出了FITS,这是一个在频域中操作的线性时间序列模型,包括一个可选的高频过滤组件来减小模型的足迹。FITS首先计算实离散傅里叶变换(Real Discrete Fourier Transform, RFT),应用一个复杂的线性映射,然后将结果反转回到时域。FITS的性能令人印象深刻,在最佳超参数设置下达到或接近最先进的性能。

这些研究为论文提供了背景和动机,论文的分析建立在这些相关工作的基础之上,进一步探讨了线性模型在时间序列预测中的表达能力和实际性能。

Q: 论文如何解决这个问题?

符号定义

A: 论文通过以下步骤解决对线性时间序列预测模型的分析问题:

  1. 模型分类:首先定义了不同的线性模型架构,包括DLinear、FITS、RLinear和NLinear,并描述了它们的关键特点。
  2. 数学分析:深入分析了每个模型架构能够表达的函数集合(模型类)。论文展示了这些模型类要么是无约束的线性回归,要么是通过特征增强弱约束的线性回归。
  3. 等价性证明:通过数学证明,论文表明了几种流行的线性模型变体在功能上是等价的,即它们描述的参数化函数族是相同的(在数据归一化的选择上有所差异)。
  4. 实验验证:提供了实验证据来支持理论分析,显示在相同的数据上训练时,所有模型都倾向于学习几乎相同的解。这包括比较不同模型学习到的权重矩阵和偏差参数。
  5. 性能比较:比较了闭式解(ordinary least squares, OLS)和使用随机梯度下降(stochastic gradient descent, SGD)训练的模型的性能。论文发现,在72%的测试设置中,简单的闭式解在预测性能上优于或至少与现有的模型相当。
  6. 讨论和局限性:论文讨论了分析的局限性,并提出了未来工作的方向,例如探索FITS技术压缩OLS解的可能性。

总的来说,论文通过结合理论分析和实验验证,提供了对线性时间序列预测模型的深入理解,并挑战了关于这些模型性能和复杂性的一些常见假设。

一些结论

IN和RevIN的约束限制

NowNorm不限制bias

总结不同线性模型异同(不同类型变体,标准化方式,约束)

Q: 论文做了哪些实验?

长时预测

A: 论文进行了以下实验来支持其分析和论点:

  1. 权重矩阵比较:通过可视化和比较不同训练后的线性模型变体(包括RLinear、NLinear、DLinear+IN和FITS+IN)的内部权重矩阵,论文展示了这些模型在学习过程中趋于相似的权重矩阵。这与论文中提出的假设一致,即不同的模型架构在功能上是等价的。
  2. 余弦相似度分析:论文追踪了在训练过程中这些模型的权重矩阵与其对应的闭式解(OLS+IN)之间的余弦相似度。这进一步证明了所有模型的权重都趋向于与闭式解相匹配。
  3. 预测结果比较:展示了这些模型在训练50个周期后在ETTh1数据集上的预测结果,并指出虽然模型之间存在微妙的差异,但预测结果普遍相似。
  4. 偏差参数比较:比较了不同模型学习到的偏差参数,并发现FITS+IN的偏差参数与其他模型有显著不同,这与论文的理论分析相符。
  5. 性能基准测试:在8个标准的时间序列基准数据集上评估了DLinear、FITS、RLinear、NLinear和线性模型(Linear)的性能,并包括有无实例归一化(Instance Normalisation)的变体。论文记录了这些模型在不同预测范围(96, 192, 336, 和 720)下的均方误差(Mean Squared Error, MSE)。
  6. 闭式解与SGD训练模型的性能对比:论文比较了闭式解(OLS)和使用随机梯度下降(SGD)训练的模型在不同数据集和预测范围的性能,发现OLS在72%的设置中性能更好或相当。

这些实验旨在验证论文中的理论发现,即不同的线性时间序列预测模型在实践中表现出相似的性能,并且闭式解通常是一个有效的预测器。

heatmaps-revinv

这个图显示了经过50轮训练后,所有四个模型的cropped weight矩阵与实例标准化(instance normalization),并列相应闭式解(最左边)。这些数据显示了基础模型的相似程度。这些细微的差别在一定程度上影响了预测(如下图)。

forecasts

不同模型,预测结果有细微差别

Q: 有什么可以进一步探索的点?

A: 论文在讨论部分提出了一些可以进一步探索的点,包括:

  1. 模型压缩:FITS模型允许在训练期间通过忽略高频成分来压缩模型。论文提出,可以探索将FITS技术应用于压缩闭式解(OLS)解决方案的可能性,这可能会在保持预测性能的同时减少模型的复杂性。
  2. 多通道设置下的模型差异:论文提到,尽管在单通道设置中线性+RevIN和线性+IN模型是相同的,但在多通道设置下,如果允许每个通道有单独的仿射参数,那么RevIN可能会为每个通道产生略微不同的偏差。这值得进一步研究。
  3. 低通滤波器(LPF)的影响:论文中忽略了FITS模型中的LPF,因为它通常会降低性能。未来可以研究在应用LPF时,模型类如何受到限制,以及这是否影响模型的等价性。
  4. 模型的泛化能力:虽然论文中的实验表明,不同的线性模型在特定的数据集上表现出相似的预测性能,但是这些模型的泛化能力在不同的数据集或领域中可能会有所不同。未来的研究可以探索这些模型在更广泛的应用场景中的表现。
  5. 模型的可解释性:线性模型的一个优点是它们通常比深度学习模型更易于解释。未来的研究可以探索如何提高线性模型的可解释性,以及如何利用这一点来提高模型的透明度和可信度。
  6. 模型的优化策略:论文提到,尽管所有模型都使用均方误差(MSE)作为损失函数,但它们的参数化和初始化方式不同,这可能会影响模型的收敛速度和早期停止的影响。未来的研究可以探索不同的优化策略和正则化技术,以进一步提高线性时间序列预测模型的性能。

这些潜在的研究方向可以帮助深化对线性时间序列预测模型的理解,并可能揭示新的方法来改进这些模型的性能和应用范围。

Q: 总结一下论文的主要内容

A: 这篇论文主要分析了线性时间序列预测模型,并探讨了它们的功能等价性和实际性能。以下是论文的主要内容总结:

  1. 研究背景:尽管深度学习模型在许多领域取得了成功,但在时间序列预测任务中,简单的线性模型仍然非常有效,有时甚至优于复杂的深度模型。近年来,出现了多种线性模型变体,它们通过特征归一化等方式提高了模型的泛化能力。
  2. 主要目标:论文旨在深入分析几种流行的线性时间序列预测模型,包括DLinear、FITS、RLinear和NLinear,并证明这些模型在功能上与标准线性回归无法区分。
  3. 理论分析:论文通过数学证明,展示了这些线性模型变体实际上都是等价的,它们的参数化函数族相同,且都可以被重新解释为无约束或弱约束的线性回归。
  4. 实验验证:论文提供了实验证据,显示这些模型在相同数据上训练时,倾向于学习几乎相同的解。此外,论文还比较了闭式解(如普通最小二乘法,OLS)和使用梯度下降训练的模型的性能,发现在大多数情况下,闭式解表现得更好。
  5. 研究贡献:论文的主要贡献包括数学证明、实验证据和定量证据,这些证据表明在时间序列预测任务中,不同的线性模型在功能和性能上并没有显著差异。
  6. 未来工作:论文讨论了其分析的局限性,并提出了未来研究的方向,例如探索FITS技术在压缩OLS解中的应用潜力。

:论文的主要贡献包括数学证明、实验证据和定量证据,这些证据表明在时间序列预测任务中,不同的线性模型在功能和性能上并没有显著差异。
6. 未来工作:论文讨论了其分析的局限性,并提出了未来研究的方向,例如探索FITS技术在压缩OLS解中的应用潜力。

总的来说,这篇论文挑战了关于线性时间序列预测模型性能和复杂性的一些常见假设,并提供了对这些模型的深入理解,这可能有助于改进未来的预测模型和策略。

🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀
欢迎大家关注时空探索之旅时空探索之旅QRCode

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/535645.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

开源项目若依放大招了?

前言 鉴于之前写了篇插件式相关的文章,阅读量比起其它文章可不要好太多,所以我决定继续这个主题! 以前我们公司用的就是Ruoyi,代码比较简单易懂。但是有些功能确实用不上,比如部门和岗位,每次新项目我拉了…

Docker安装及开启远程访问

这几天有人问我docker是怎么开启远程服务的? 正好之前我做过这件事情,并且写了相关的笔记,现在整理为一篇博客发出来。 安装Docker 首先更新一下自己的yum版本 yum update安装一下所需要的软件包 yum-config-manager --add-repo http://…

Java复习第十七天学习笔记(转发、重定向,GET,POST),附有道云笔记链接

【有道云笔记】十七 4.3 转发、重定向、Get、POST、乱码 https://note.youdao.com/s/GD5TRksQ 一、转发 转发:一般查询了数据之后,转发到一个jsp页面进行展示 req.setAttribute("list", list); req.getRequestDispatcher("student_lis…

套接字通信模型

本文内容主要参考《Android图形显示系统》 套接字也就是socket,一般用于网络中两个主机之间应用进程进行通信,在同一个主机也可以使用套接字完成进程之间的通信。 在图形显示系统中,用到套接字进行通信的地方主要有VSync信号的分发以及输入事…

Linux:动态库加载、编址

目录 一、库的概念 二、动静态库的加载 2.1绝对编址与相对编址 2.1一般程序的加载 三、动态库的加载 一、库的概念 库默认就是一个磁盘级文件,所以在执行代码时,库和可执行程序都会被加载到内存中,从原理上,库函数的调用依旧…

软件测试:遇到bug怎么分析,这篇文章值得一看

为什么定位问题如此重要? 可以明确一个问题是不是真的“bug” 很多时候,我们找到了问题的原因,结果发现这根本不是bug。原因明确,误报就会降低多个系统交互,可以明确指出是哪个系统的缺陷,防止“踢皮球”&…

C--函数指针与回调函数

文章目录 定义函数指针qsort中的回调函数自实现排序的回调函数 定义 回调函数,当一个函数执行时,中途调用其他定义好的函数来帮助实现功能,再继续执行这个函数 函数指针 类型为函数的指针,如下 void func() { } int main() {…

如何让视频流媒体平台免受网络攻击

在各国,流媒体服务已越来越受到大众的欢迎。有统计表明,目前视频流已占网络整体流量的80%以上。不过如您所见,近年来,数字威胁的不断增加,也让网络攻击逐年递增。单个视频用户受到的危险,往往会危及到整个服…

【unity】【C#】游戏音乐播放和发布

今天我们来认识一下有关 unity 音乐的一些知识 我们先创建 AudioClips 文件夹,这个文件夹通常就是 unity 中存放音乐的文件夹,然后拖进音乐文件进去 这里为大家提供了两个音乐,有需要可以自取 百度网盘:https://pan.baidu.com/s…

模型训练----apex库报错IndexError: tuple index out of range

问题描述 在训练模型的过程中遇到了apex库的报错IndexError: tuple index out of range导致无法训练。在github查询后找到了解决方法 问题解决 需要修改/apex-master/apex/amp/utils.py这个文件的代码 从93行开始修改 if x in cache:cached_x cache[x]next_functions_ava…

MySQL学习笔记(三)

1、insert插入多条数据 语法:insert into t_user(字段名1,字段名2...) values(值1,值2...),(值1,值2...),(值1,值2...)...; 2、快速创建表 原理:将一个查询结果当做一张表创建,可以完成表的快速复制。表创建出来,同时表中的数据…

计算机的发展趋势

本文 我们来说计算机的发展趋势 目前来讲 计算机是朝着 巨型化 微型化 网络化 智能化发展 巨型化 指功能巨型化 是指其高速运算、大存储容量和强功能的巨型计算机。其运算能力一般在每秒百亿次以上、内存容量在几百兆字节以上。 主要用于航空航天、军事、气象、人工智能、生…

[Kubernetes[K8S]集群:master主节点初始化]:通过Calico和Coredns网络插件方式安装

文章目录 操作流程:前置:Docker和K8S安装版本匹配查看0.1:安装指定docker版本 **[1 — 7] ** [ 配置K8S主从集群前置准备操作 ]一:主节点操作 查看主机域名->编辑域名->域名配置二:安装自动填充,虚拟…

LeetCode 909 208

题目 909. 蛇梯棋 思路 完全不会!呜呜呜,看了别人的题解。二维数组之字形遍历放在一维数组里面,然后借助队列对数组进行bfs。 代码 class Solution {int n;int[] nums;public int snakesAndLadders(int[][] board) {// 暴力遍历n board.le…

深入理解图形处理器(GPU):加速人工智能和大数据计算的引擎

文章目录 1. 什么是GPU?2. GPU的工作原理3. GPU的应用领域4. GPU与CPU的比较参考与推荐 前言: 图形处理器(GPU)不再仅仅是用于图形渲染的硬件设备。如今,GPU已经成为加速人工智能、大数据计算和科学研究的关键引擎。本…

MINI2440 开发板 给他干出来了

环境是ubuntu14.04。不要问我为什么是这个版本,因为之前的ubuntu12.04 环境干不出来,你去试试就知道了!各种资源包下载不下来。 输入启动参数: 进入MINI2440:别说心里一万个开心,启动完成,输入p…

Linux开发--进程

经典五问: 1.什么是程序?什么是进程? 从是否运行进行判断: gcc xxx -o pro,磁盘中生成的pro文件,就是程序 进程是程序一次运行活动 程序是静态的概念,进程是动态的概念。 2.如何查看系统中的进程: 在l…

LeetCode-热题100:64. 最小路径和

题目描述 给定一个包含非负整数的 m x n 网格 grid ,请找出一条从左上角到右下角的路径,使得路径上的数字总和为最小。 **说明:**每次只能向下或者向右移动一步。 示例 1: 输入: grid [[1,3,1],[1,5,1],[4,2,1]]…

09 - 镜像管理之:部署单点harbor

本次准备了3台机器:harbor-01、harbor-02、harbor-db,用于测试 单点模式、高可用模式 部署 harbor。 ip主机名规格操作系统说明192.168.217.136harbor-012c4gCentos7.9harbor 服务器,测试单点harbor192.168.217.135harbor-022c4gCentos7.9ha…

初始C++之缺省参数 函数重载 引用

初始C之缺省参数 函数重载 引用& 文章目录 初始C之缺省参数 函数重载 引用&一、缺省参数1.1 缺省参数的定义1.2 缺省参数的分类1.3 注意事项 二、 函数重载2.1 函数重载的定义2.2 参数个数不同2.3 参数类型不同2.4 类型顺序不同2.5 为什么C语言不支持函数重载 三、引用…