阅读笔记 | Transformers in Time Series: A Survey

阅读论文:

Wen, Qingsong, et al. “Transformers in time series: A survey.” arXiv preprint arXiv:2202.07125 (2022).

这篇综述主要对基于Transformer的时序建模方法进行介绍。论文首先简单介绍了Transformer的基本原理,包括位置编码、多头注意力机制、前馈全连接网络等模块。接着提出了从网络结构和应用领域两个角度对时序Transformer进行分类。

  • 从网络结构角度,总结了在模块级别和架构级别对Transformer进行的改进,以适应时序建模的特点

    • 位置编码模块
      • 简单位置编码:经典Transformer中用到的,手工设计,能提取位置信息但无法充分利用时序数据的重要特征
      • 可学习位置编码:使用别的模型或增加Transformer嵌入层来学习时序的位置编码的向量表示,获得更灵活更expressive的位置编码
      • 时间戳编码:在Informer和Autoformer里将年月日时分秒和节假日等作为额外的位置编码信息,通过可学习位置编码方法得到其向量表示
    • 注意力模块
      • 引入稀疏偏差到注意力机制来降低普通注意力机制的平方复杂度
      • 探索自注意力矩阵的低秩特性来加速计算(例如Informer和FEDformer)
    • 分层架构设计
      • 基于max-pooling下采样实现分辨率折半(Informer)
      • 基于C叉树以不同分辨率序列作为节点,并设计相同分辨率尺度和不同分辨率尺度间的注意力机制以捕获其分辨率尺度间的时间依赖(Pyraformer)
  • 从应用角度,概述了Transformer在预测、异常检测和分类任务中的不同变体的应用情况。

    • 预测

      • 时序预测

        • 模块级的变体

          • 设计新的注意力模块(占大部分研究)
            请添加图片描述

            • LogTrans:提出卷积自注意力,使用因果卷积来生成自注意力层的queries和keys,并引入稀疏bias和Logsparse mask到自注意力层
            • Informer:根据queries和keys相似度选择主要的queries,还设计了生成式的decoder来避免在长期预测时做单步自回归预测的累积误差
            • AST:使用生成对抗编码器-解码器框架训练稀疏Transformer模型做时序预测,也可以避免累积误差
            • Pyraformer:设计了一个分层金字塔状注意力模块,基于上述的C叉树捕获不同分辨率时序的时间依赖
            • Quatformer:基于四元数提出learning-to-rotate注意力,引入了可学习的周期和相位信息使得模型可以学习到复杂的时序周期模式
            • FEDformer:通过傅里叶变换和小波变换在频域实现注意力操作以降低计算与存储复杂度
          • 增强可解释性

            • TFT:设计了一个针对多种输入数据优化的multi-horizon预测模型,通过合并全局、时序依赖和事件来实现可解释性
            • ProTran:Transformer和状态空间模型(SSM)结合,实现基于变分推理的生成建模和推理
            • SSDNet:Transformer和SSM结合,用Transformer学习时间模式并估计SSM参数,再用SSM对时序数据进行季节性趋势分解以实现可解释性
          • 探索新的时序数据标准化方法

            • 目前只有Non-stationary Transformer:探索了时序预测任务中的过度平稳化问题,并实现了用于序列平稳化和去平稳化的插件模块
          • 利用token输入的偏差

            • Autoformer:基于分段表示机制,设计了季节性趋势分解架构。
            • PatchTST:利用通道无关实现多通道序列embedding共享,子序列patch设计分割时序数据为子序列patch作为Transformer输入
            • Crossformer:利用了跨维度依赖进行多元时序预测,通过维度分段embedding将输入嵌入到二维向量以保留时间和维度信息,并用两阶段注意力层来捕获这种跨维度依赖。
        • 架构级的变体

          • Triformer:三角树形结构,轻量且线性复杂度
          • Scaleformer:提出多时间尺度架构,并可通过在多尺度上共享参数地迭代细化预测时间序列来提高性能
      • 时空预测

        • Traffic Transformer:加上图神经网络模块捕获空间依赖性
        • Spatial-temporal Transformer:在前者基础上加上了空间的Transformer block和图卷积神经网络来更好捕获空间依赖性
        • Spatio-temporal graph Transformer:设计了基于注意力的图卷积机制来学习复杂时空注意力模式
        • Earthformer:提出立方体注意力机制,将数据分解为立方体并应用该机制
      • 事件预测(不规则且时间间距不等的事件序列)

        • 在传统时间点过程(TPP)方法上结合Transformer,通过嵌入所有可能时间和时间来扩展该方案
    • 异常检测(可用于电力数据的跳变异常点检测)

      • TranAD提出使用对抗训练来放大重建误差,增强Transformer的异常检测能力。
      • MT-RVAE 设计了多尺度Transformer,同时整合全局和局部时序信息。
      • TransAnomaly将Transformer与VAE结合,实现训练成本的大幅降低。
      • GTA 借鉴图神经网络思想,模拟变量之间的影响传播机制。
      • AnomalyTrans通过建模先验关联和序列关联的方式增强异常点的区分度。
    • 分类任务

      • GTN使用双塔结构分别建模时间步和通道注意力,通过可学习加权融合特征,在多元时间序列分类任务上取得SOTA
      • [Rußwurm and Körner, 2020] 应用基于自注意力的Transformer获得了卫星图像时间序列分类的SOTA
      • TARNet设计了学习任务相关数据重构的Transformer,利用mask和重构时间步的注意力机制提升了分类性能
      • [Yuan and Lin, 2020] 在卫星图像时间序列分类中应用了自监督预训练的Transformer来缓解数据不足
      • [Zerveas et al., 2021] 提出了无监督预训练框架,使用比例mask数据进行模型预训练后微调
      • [Yang et al., 2021] 使用预训练语音模型进行时间序列分类任务迁移学习,在多个数据集上获

该论文还通过实验分析了 Transformer在时序建模中的鲁棒性、模型大小和季节性分解等多个方面。作者在ETTm2数据集上针对不同配置的时序Transformer进行了实验分析,以研究它们在时序建模中的工作方式。

鲁棒性分析表明,许多仔细设计的Transformers在输入序列加长时,性能快速恶化。这使它们在长期预测中实际效果有限。需要更多工作来充分利用长序列输入。

模型大小分析发现,增加Transformer层数并不一定改善预测效果,3-6层的Transformer通常效果更好。这提出了如何设计更深层Transformer架构的问题。

季节性-趋势分解分析发现,这种分解可以显著提升Transformer在时序预测中的表现,不同模块提升幅度在50-80%。这一发现值得进一步研究设计更高级的分解方案。

最后文章提出了未来可能的研究方向,包括为时序Transformer引入先验偏置、与图神经网络结合、预训练模型、架构级变体设计和神经架构搜索等。

个人思考

  • 该调研在时空预测方面的调研启发了对图神经网络的利用,而在电力负荷预测中的某些场景,也许可以对电网结构进行考虑,将电网的拓扑结构、输电距离和输电损耗等等要素加以考虑,并以立方体Transformer等方法将空间信息数据的embedding向量放到Transformer进行处理。
  • 在Transformer应用于异常检测的方面,无监督Transformer被广泛研究。但在考虑进一步应用落地到电力行业时,例如用于电负荷突变点等异常点检测时,可能需要考虑到如TFT中对多种数据源的利用,特别是未来可知数据的输入。能否将无监督重建任务范式与TFT中这种输入数据模式进行结合是一个值得思考的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/426123.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

二十三、剖析 LinkedList

剖析 LinkedList 本文为书籍《Java编程的逻辑》1和《剑指Java:核心原理与应用实践》2阅读笔记 ArrayList随机访问效率很高,但插入和删除性能比较低;LinkedList同样实现了List接口,它的特点与ArrayList几乎正好相反。除了实现了L…

springboot240基于Spring boot的名城小区物业管理系统

基于Spring boot的名城小区物业管理系统的设计与实现 摘要 当下,正处于信息化的时代,许多行业顺应时代的变化,结合使用计算机技术向数字化、信息化建设迈进。以前相关行业对于物业信息的管理和控制,采用人工登记的方式保存相关数…

来不及了!大学必须完成的四件事!

老师们常说,上大学就轻松了 其实不然 大学不是人生的终点,而是新的起跑线 不是休息站,而是进入社会的最后冲刺跑道 大学生活苦乐参半,成人世界即将来临 出了校门,你会发现社会复杂多变,需要不断学习 稍…

社区店选址评估:利用大数据选址的技巧与策略

在当今数字化的时代,利用大数据进行社区店选址评估已成为一种高效、科学的方法。作为一名开鲜奶吧5年的创业者,我将分享一些利用大数据选址的技巧与策略,帮助你找到最适合的店铺位置。 1、确定目标商圈 在选址之前,首先要明确自己…

airTest连接雷电模拟器后,打开横屏游戏,airTest设备窗显示游戏是横屏,雷电模拟器却显示竖屏

目录 airTest连接雷电模拟器后,打开横屏游戏,airTest设备窗显示游戏是横屏,雷电模拟器却显示竖屏 原因:雷电模拟器4会出现兼容性问题。 解决:升级到雷电模拟器9.0.66(9),可解决该问题。

输出梯形 C语言

解析:这个输出图形的题就是一个找规律加数学计算,我们发现每行比上一行多两个*,最后一行的*表达式为h(h-1)*2,即3*h-2,那么每一行就是一个先输出最后一行-当前行*个数个空格&#xf…

用Java语言创建的Spring Boot项目中,如何传递List集合呢?

前言: 在上篇文章中,用Java语言创建的Spring Boot项目中,如何传递数组呢??-CSDN博客,我们了解到Spring Boot项目中如何传递数组,但是,对于同类型的List集合,我们又该如何…

搜素题目(蓝桥杯 C++ 代码+注解)

目录 题目一(小朋友崇拜圈): 代码: 题目二(穿越雷区): 代码: 题目三(分考场): 代码: 题目四(受伤的皇后&#xff09…

蓝桥ACM培训-队列

前言&#xff1a; 第三天的练习&#xff0c;今天主要与队列queue有关。 正文&#xff1a; Problem:A 周末舞会-队列&#xff1a; #include <bits/stdc.h> using namespace std; int m,n,k,tmp1,tmp2; queue<int>q1,q2; int main() {cin>>m>>n>>…

飞天使-学以致用-devops知识点2-安装sonarqube

文章目录 安装sonarqube查看暴露出去的端口 生成服务token创建webhook服务创建项目 安装sonarqube apiVersion: apps/v1 kind: Deployment metadata:name: postgres-sonarnamespace: kube-devops spec:replicas: 1selector:matchLabels:app: postgres-sonartemplate:metadata:…

SQL-Labs靶场“29-31”关通关教程

君衍. 一、二十九关 基于错误的WAF单引号注入1、源码分析2、HTTP参数污染3、联合查询注入4、updatexml报错注入 二、三十关 基于错误的WAF双引号注入1、源码分析2、联合查询注入3、updatexml报错注入 三、三十一关 基于错误的WAF双引号括号注入1、源码分析2、联合查询注入3、up…

个人项目介绍2:地球卫星篇

项目需求&#xff1a; 在项目中显示三维地球及主要城市标注&#xff0c;接收服务端发来的实施卫星数据&#xff0c;显示卫星姿态角&#xff0c;陀螺角&#xff0c;飞轮等数据&#xff1b;可自定义模拟产生更多卫星轨迹&#xff1b;可模拟显示卫星躲避陨石动画&#xff1b;可展…

内含资料下载丨黄东旭:2024 现代应用开发关键趋势——降低成本、简化架构

作为一名工程师和创业者&#xff0c;创办 PingCAP 是我进入创新世界的一次深潜。这段旅程既有令人振奋的发现&#xff0c;也充满令人生畏的不确定性。作为这次探险之旅见证的 TiDB &#xff0c;现在已在全球服务超过 3000 家企业&#xff0c;其中有已经实现了商业成功的大公司&…

Canvas笔记03:Canvas元素功能、属性、获取、原理等一文讲透

hello&#xff0c;我是贝格前端工场&#xff0c;最近在学习canvas&#xff0c;分享一些canvas的一些知识点笔记&#xff0c;本期分享canvas元素的知识&#xff0c;欢迎老铁们一同学习&#xff0c;欢迎关注&#xff0c;如有前端项目可以私信贝格。 Canvas元素是HTML5中的一个重…

(二)逻辑回归与交叉熵--九五小庞

什么是逻辑回归 线性回归预测的是一个连续值&#xff0c;逻辑回归给出的“是”和“否”的回答 Singmoid sigmoid函数是一个概率分布函数&#xff0c;给定某个输入&#xff0c;它将输出为一个概率值 逻辑回归损失函数 平方差所惩罚的是与损失为同一数量级的情形&#xff0…

设计模式(十四)中介者模式

请直接看原文: 原文链接:设计模式&#xff08;十四&#xff09;中介者模式_设计模式之中介模式-CSDN博客 -------------------------------------------------------------------------------------------------------------------------------- 前言 写了很多篇设计模式的…

浅谈S-VIDEO接口静电浪涌防护

S-Video 接口曾经在一些旧款的电视机、录像机、游戏机等设备上广泛应用&#xff0c;用于传输视频信号。不过&#xff0c;随着技术的发展&#xff0c;S-Video 接口已经逐渐被其他更先进的接口所取代&#xff0c;比如 HDMI、DVI 等。 现在S-video接口广泛应用于电视、监视器、摄…

计算机视觉基础知识(二)---数字图像

像素 像素是分辨率的单位;构成位图图像的最基本单元;每个像素都有自己的颜色; 图像分辨率 单位英寸内的像素点数;单位为PPI(Pixels Per Inch),为像素每英寸;PPI表示每英寸对角线上所拥有的像素数目:,x:长度像素数目,y:宽度像素数目,Z:屏幕大小;屏幕尺寸(大小)指的是对角线长…

文件底层的理解之缓冲区

目录 一、缓冲区的初步认识 二、向文件中写数据的具体过程 三、缓冲区刷新的时机 一、缓冲区的初步认识 缓冲区其实就是一块内存区域&#xff0c;采用空间来换时间&#xff0c;可以提高使用者的效率。我们一直说的缓冲区其实是语言层面上的缓冲区&#xff0c;其实操作系统内部…

YOLOv应用开发与实现

一、背景与简介 YOLO&#xff08;You Only Look Once&#xff09;是一种流行的实时目标检测系统&#xff0c;其核心思想是将目标检测视为回归问题&#xff0c;从而可以在单个网络中进行端到端的训练。YOLOv作为该系列的最新版本&#xff0c;带来了更高的检测精度和更快的处理速…