【论文笔记合集】Transformers in Time Series A Survey综述总结

img

本文作者: slience_me


文章目录

  • Transformers in Time Series A Survey综述总结
    • 1 Introduction
    • 2 Transformer的组成
    • Preliminaries of the Transformer
      • 2.1 Vanilla Transformer
      • 2.2 输入编码和位置编码 Input Encoding and Positional Encoding
        • 绝对位置编码 Absolute Positional Encoding
        • 相对位置编码 Relative Positional Encoding
      • 2.3 多头注意力 Multi-head Attention
      • 2.4 前馈和残差网络(简单放在这)
    • 3 时间序列中的Transformers的分类 Taxonomy of Transformers in Time Series
    • 4 时间序列的网络修改 Network Modifications for Time Series
      • 4.1 位置编码 Positional Encoding
      • 4.2 注意力模块 Attention Module
      • 4.3 基于架构的注意力创新 Architecture-based Attention Innovation
    • 5 时间序列Transformer的应用 Applications of Time Series Transformers
      • 5.1 Transformers in Forecasting
        • 时间序列的预测 Time Series Forecasting
          • 模块级变体
          • 架构级变体
        • 时空预测 Spatio-Temporal Forecasting
        • 事件预测 Event Forecasting
      • 5.2 异常检测中的Transformer
      • 5.3 分类中的Transformer
    • 6 实验评估与讨论 Experimental Evaluation and Discussion
      • 鲁棒性分析
      • 模型大小分析
      • 季节性趋势分解分析
    • 7 未来研究机会 Future Research Opportunities
      • 7.1 时间序列Transformer的归纳偏差
      • 7.2 用于时间序列的Transformer和GNN
      • 7.3 用于时间序列的预训练Transformer
      • 7.4 Transformer与体系结构级别的变体
      • 7.5 用于时间序列的NAS Transformers
    • 8 结论 Conclusion
      • 7.5 用于时间序列的NAS Transformers
    • 8 结论 Conclusion

Transformers in Time Series A Survey综述总结

Transformers在自然语言处理和计算机视觉的诸多任务中取得了更优的性能,这也引起了时间序列社区的广大的兴趣。在Transformers的众多优点中,捕获远程依赖关系和交互的能力对于时间序列建模特别具有吸引力,从而在各种时间序列应用中取得了令人兴奋的进展。在本文中,作者团队系统地审查Transformer计划的时间序列建模,突出他们的优点以及局限性。

该文章从两个角度去审视时间序列Transformers的发展

  • 网络结构 : 总结了Transformers,以适应时间序列分析的挑战,已作出的调整和修改。
  • 应用:根据预测、异常检测和分类等常见任务对时间序列Transformers进行分类

在实证上,进行了稳健性分析,模型大小分析和季节趋势分解分析,以研究Transformers在时间序列中的表现。

最后,讨论和建议未来的研究方向,提供有用的研究指导。

文章链接

文章代码


1 Introduction

在过去的几年里,许多Transformer已经被提出来大大提高各种任务的最先进性能。有相当多的文献综述来自不同的方面,例如在NLP应用中[Han et al.,2021],CV应用[Han等人,2022]和efficient Transformers[Tay等人,2022年],但尚未有针对时间序列中Transformer应用的全面综述。

在本文中,作者团队的目的是填补时间序列中Transformer应用的全面综述的差距与空白,总结了时间序列Transformers的主要发展。本文首先给予简要的介绍,然后从网络修改和应用领域的角度提出了一个新的分类法的时间序列的Transformers的Vanilla Transformer。

  • 网络修改:讨论了低级别(即模块)和高级别(即架构)的Transformers,以优化时间序列建模的性能的改进。
  • 应用程序:分析和总结Transformers的流行的时间序列任务,包括预测,异常检测和分类。对于每个时间序列Transformer,分析其见解,优势和局限性。

对于每个时间序列Transformer,分析其见解,优势和局限性。并进行了广泛的实证研究,包括鲁棒性分析,模型大小分析和季节趋势分解分析。

讨论了时间序列Transformers未来可能的方向,包括时间序列Transformers的归纳偏差,时间序列的Transformers和GNN,时间序列的预训练Transformers, 具有架构级别变体的Transformers,以及时间序列的NAS Transformers。


2 Transformer的组成

Preliminaries of the Transformer

2.1 Vanilla Transformer

Vanilla Transformer [Vaswani等人,2017]遵循具有编码器-解码器结构的最具竞争力的神经序列模型。编码器和解码器都由多个相同的块组成。每个编码器块由多头自注意模块和位置前馈网络组成,而每个解码器块在多头自注意模块和位置前馈网络之间插入交叉注意模型。

2.2 输入编码和位置编码 Input Encoding and Positional Encoding

与LSTM或RNN不同,Vanilla Transformer没有递归。相反,它利用在输入嵌入中添加的位置编码来对序列信息进行建模。在下面总结一些位置编码。

绝对位置编码 Absolute Positional Encoding

在vanilla Transformer中,对于每个位置索引t,编码向量由下式给出:

image-20240312095102733

其中ωi是每个维度的手工频率。另一种方法是为每个位置学习一组位置嵌入,这更灵活[Meson等人,2019; Gehring等人,2017年]。

相对位置编码 Relative Positional Encoding

根据对输入元素之间的成对位置关系更有益的直觉,提出了相对位置编码方法。例如,其中一种方法是向注意机制的关键添加可学习的相对位置嵌入。

除了绝对和相对位置编码之外,还有一些使用混合位置编码的方法将它们结合在一起 。通常,位置编码被添加到标记嵌入中并馈送到Transformer。

参考解读: CSDN | 个人博客

2.3 多头注意力 Multi-head Attention

通过查询-关键字-值(QKV)模型,Transformer使用的缩放点积注意力由下式给出:

image-20240312154830337

image-20240312151303004

image-20240312154854919

参考解读: CSDN | 个人博客

2.4 前馈和残差网络(简单放在这)

前馈网络是一个完全连接的模块,

image-20240312154756144

在更深的模块中,在每个模块周围插入一个残余连接模块,然后是一个层规范化模块。

image-20240312155740176


3 时间序列中的Transformers的分类 Taxonomy of Transformers in Time Series

为了总结现有的时间序列Transformers,作者团队从网络修改和应用领域的角度提出了一个分类,如下图所示。

在此基础上,对已有的时间序列Transformers进行了系统的回顾。

  • 从网络修改的角度,总结了Transformer的模块级和架构级的变化,以适应时间序列建模的特殊挑战。
  • 从应用的角度出发,根据时间序列Transformers的应用任务进行分类,包括预测、异常检测和分类。

TS_Xformer_V2


4 时间序列的网络修改 Network Modifications for Time Series

4.1 位置编码 Positional Encoding

由于时间序列的顺序很重要,因此将输入时间序列的位置编码到Transformer中非常重要。一个常见的设计是首先将位置信息编码为向量,然后将它们与输入时间序列一起作为额外的输入注入到模型中。在使用Transformer建模时间序列时,如何获取这些向量可以分为三个主要类别。

总结:

  1. 原始位置编码(Vanilla Positional Encoding)简单地添加到输入时间序列嵌入中,但无法充分利用时间序列数据的特征。一些研究[Li等人,2019]简单介绍了在[Vaswani等,2017]中使用的原始位置编码(第2.2节),该编码随后被添加到输入时间序列的嵌入中,并馈送到Transformer。
  2. 可学习位置编码(Learnable Positional Encoding)通过学习适当的位置嵌入,比固定的原始位置编码更灵活,可以更好地适应特定任务。[Zerveas等人,2021]在Transformer中引入了一个嵌入层,该层与其他模型参数一起学习每个位置索引的嵌入向量。[Lim等人,2021] 使用LSTM网络来编码位置嵌入,可以更好地利用时间序列中的顺序信息。
  3. 时间戳编码(Timestamp Encoding)利用时间戳信息,将其编码为附加的位置编码,提高了对时间序列数据的利用效率。时间戳信息包括日历时间戳(例如,秒、分钟、小时、周、月和年)和特殊时间戳(例如假期和事件)。这些时间戳具有信息量但在原始的Transformer中很少被利用。为了缓解这个问题,Informer [Zhou等,2021] 提议使用可学习的嵌入层将时间戳编码为附加的位置编码。类似的时间戳编码方案还在Autoformer [Wu等,2021] 和FEDformer [Zhou等,2022] 中使用过。

4.2 注意力模块 Attention Module

Transformer的核心是自注意力模块。它可以被视为一个完全连接的层,其权重根据输入模式之间的成对相似性动态生成。因此,它与完全连接层具有相同的最大路径长度,但参数数量较少,适合建模长期依赖关系。(Transformer的计算优化主要就集中在self attention的计算熵)

原始Transformer中的自注意力模块的时间和内存复杂度为O(N2)(N为输入时间序列的长度),当处理长序列时,这成为计算瓶颈。

许多高效的Transformer被提出来减少二次复杂度,可分为两个主要类别:

  1. 显式地引入稀疏偏置到注意力机制中,如LogTrans [Li等,2019] 和Pyraformer [Liu等,2022a];
  2. 探索自注意力矩阵的低秩性质以加速计算,例如Informer [Zhou等,2021] 和FEDformer [Zhou等,2022]。

表1显示了应用于时间序列建模的流行Transformer的时间和内存复杂度

image-20240312163906392

4.3 基于架构的注意力创新 Architecture-based Attention Innovation

为了适应Transformer中用于建模时间序列的各个模块,一些研究[Zhou等,2021;Liu等,2022a]试图在架构层面上对Transformer进行改进。

  • 最近的研究引入了分层架构到Transformer中,使其具有整合不同多分辨率特征,高效计算的好处,有利于高效处理长时间序列。

  • Informer[Zhou等,2021]在注意力块之间插入了步幅为2的最大池化层,将时间序列降采样为其一半。

  • Pyraformer[Liu等,2022a]设计了基于C-ary树的注意力机制,其中最细粒度的节点对应于原始时间序列,而较粗粒度的节点表示较低分辨率的时间序列。开发了内尺度和间尺度的注意力,以更好地捕捉不同分辨率之间的时间依赖关系。

5 时间序列Transformer的应用 Applications of Time Series Transformers

5.1 Transformers in Forecasting

在最近几年中,已经开展了大量工作来设计新的Transformer变体,用于时间序列预测任务。模块级别和架构级别变体是两个主要类别,前者占到了迄今为止的大多数研究。

时间序列的预测 Time Series Forecasting
模块级变体

在时间序列预测的模块级别变体中,它们的主要架构类似于原始的Transformer,但存在细微变化。研究人员引入各种时间序列归纳偏差来设计新的模块。以下总结的工作包括三种不同类型:设计新的注意力模块、探索归一化时间序列数据的创新方式,以及利用令牌输入的偏差,如下图所示。

在这里插入图片描述

模块级别Transformer的第一种变体类型是设计新的注意力模块,这是比例最大的类别。以下首先描述了六个典型的工作:

  1. LogTrans [Li等,2019]: 论文

    • 提出了卷积自注意力,利用因果卷积生成自注意力层中的查询和键。
    • 引入了稀疏偏置(Logsparse掩码),将计算复杂度从O(N2)降低到O(N logN)。
  2. Informer [Zhou等,2021]: 论文

    • 未使用显式的稀疏偏置,而是基于查询和键的相似性选择主要查询。
    • 设计了一种生成式解码器,直接产生长期预测,避免了长期预测中的累积误差。
  3. AST [Wu等,2020a]: 论文

    • 使用生成对抗编码器-解码器框架,训练稀疏Transformer模型进行时间序列预测。
    • 表明通过直接塑造网络的输出分布来避免通过一步推断导致误差积累,对于改善时间序列预测具有积极作用。
  4. Pyraformer [Liu等,2022a]: 论文

    • 设计了分层的金字塔式注意力模块,通过沿路径遵循二叉树来捕获不同范围的时间依赖关系。
    • 具有线性时间和内存复杂性。
  5. FEDformer [Zhou等,2022]: 论文

    • 在频域中应用注意力操作,使用傅立叶变换和小波变换。
    • 通过随机选择固定大小的频率子集实现了线性复杂度。
  6. Quatformer [Chen等,2022]: 论文

    • 提出了基于四元数的学习旋转注意力(LRA),引入可学习的周期和相位信息来描述复杂的周期模式。
    • 使用全局内存解耦了LRA以实现线性复杂度。

第一类模块级别的变体旨在建立模型的显式解释能力,符合可解释人工智能(XAI)的趋势。其中有以下三项工作:

  1. TFT [Lim等,2021]: 论文

    • 设计了一个多时间跨度的预测模型,具有静态协变量编码器、门控特征选择和时间自注意解码器。
    • 从各种协变量中编码和选择有用信息来执行预测。
    • 通过整合全局、时间依赖和事件等信息,保持了可解释性。
  2. ProTran [Tang和Matteson,2021] 和 SSDNet [Lin等,2021]:论文

    • 将Transformer与状态空间模型(state space model)结合,提供概率预测。
    • ProTran设计了一个基于变分推理的生成建模和推理过程。
    • SSDNet首先使用Transformer学习时间模式,估计SSM的参数,然后应用SSM进行季节趋势分解,保持了可解释性。
  3. SSDNet [Lin等,2021]:论文

    • 将Transformer与状态空间模型结合,提供概率预测。
    • 首先使用Transformer学习时间模式,估计SSM的参数,然后应用SSM进行季节趋势分解,保持了可解释性。

第二类模块级别的变体是标准化时间序列数据的方式

目前据作者团队所知,唯一专注于修改标准化机制的工作是 Non-stationary Transformer [Liu等,2022b]。该工作探讨了时间序列预测任务中的过度平稳化问题,提出了相对简单的插件系列平稳化和非平稳化模块,以修改和提升各种注意力块的性能。

第三类模块级别的变体是利用令牌输入的偏差。其中:

  • Autoformer [Wu等,2021] 采用基于分段的表示机制,设计了一个简单的季节趋势分解架构,其中自相关机制充当注意力模块,通过度量输入信号的时延相似性,并聚合前k个相似的子序列,以降低复杂度。论文

  • PatchTST [Nie等,2023] 利用通道独立性,每个通道包含一个单变量时间序列,所有序列共享相同的嵌入,以及子序列级别的补丁设计,将时间序列分段成子序列级别的补丁,作为输入令牌输入到Transformer。这种ViT样式的设计在长时间序列预测任务中提高了数值性能。论文

  • Cross-former [Zhang和Yan,2023] 提出了一种基于Transformer的模型,利用跨维度依赖进行多变量时间序列预测。输入通过新颖的维度分段嵌入转换为二维向量数组,以保留时间和维度信息。然后,使用两阶段注意力层来有效地捕获跨时间和跨维度的依赖关系。论文

架构级变体

一些工作开始设计超出基本Transformer范围的新Transformer架构。其中:

  1. Triformer [Cirstea等,2022]:论文

    • 设计了一个三角形的、变量特定的补丁注意力。
    • 使用三角形树状结构,随着后续输入尺寸呈指数级缩小。
    • 通过一组变量特定的参数,使得多层Triformer保持轻量级和线性复杂度。
  2. Scaleformer [Shabani等,2023]:论文

    • 提出了一个多尺度框架,适用于基于Transformer的时间序列预测模型(如FEDformer [Zhou等,2022],Autoformer [Wu等,2021]等)。
    • 通过共享权重,在多个尺度上迭代地细化预测的时间序列,以提高基线模型的性能。
时空预测 Spatio-Temporal Forecasting

在时空预测中,时间序列Transformer考虑了时间和时空依赖关系,以实现准确的预测。具体而言:

  1. Traffic Transformer [Cai等,2020]:论文

    • 设计了一个编码器-解码器结构,使用自注意力模块捕获时间-时间依赖关系,以及使用图神经网络模块捕获空间依赖关系。
  2. Spatial-temporal Transformer [Xu等,2020]:论文

    • 在交通流量预测中,引入了时间Transformer块以捕获时间依赖关系,并设计了一个空间Transformer块,结合图卷积网络,更好地捕获空间-空间依赖关系。
  3. Spatio-temporal graph Transformer [Yu等,2020]:论文

    • 设计了一个基于注意力的图卷积机制,能够学习复杂的时空注意力模式,以改善行人轨迹预测。
  4. Earthformer [Gao等,2022]:论文

    • 提出了一个立方体注意力机制,用于高效的时空建模,将数据分解成立方体,并并行应用立方体级别的自注意力。
    • 在天气和气候预测中表现出优异的性能。
  5. AirFormer [Liang等,2023]:论文

    • 设计了一个飞镖形式的空间自注意力模块和一个因果形式的时间自注意力模块,以有效捕获空间相关性和时间依赖关系。
    • 此外,它通过潜在变量增强了Transformer,以捕获数据的不确定性并改善空气质量预测。
事件预测 Event Forecasting

在许多实际应用中,事件序列数据具有不规则和异步的时间戳,这与具有相等采样间隔的规则时间序列数据形成对比。事件预测旨在根据过去事件的历史来预测未来事件的时间和标记,通常通过时间点过程(TPP)[Yan等,2019;Shchur等,2021]来建模。最近,一些神经TPP模型将Transformer纳入其中,以提高事件预测的性能。具体而言:

  1. Self-attentive Hawkes process (SAHP) [Zhang等,2020] 和 Transformer Hawkes process (THP) [Zuo等,2020]:

    • 采用Transformer编码器架构来总结历史事件的影响并计算事件预测的强度函数。
    • 通过将时间间隔转换为正弦函数来修改位置编码,以利用事件之间的间隔。
  2. Attentive neural datalog through time (ANDTT) [Mei等,2022]:

    • 提出了一种更加灵活的方案,通过注意力将所有可能的事件和时间进行嵌入。
    • 实验表明,它能够比现有方法更好地捕捉复杂的事件依赖关系。

5.2 异常检测中的Transformer

基于Transformer的架构也有助于时间序列异常检测任务,因为它能够建模时间依赖关系,从而提高检测质量。具体而言:

  1. TranAD [Tuli等,2022]:论文

    • 提出了一种对抗训练过程,通过增加重建误差来放大异常的小偏差。
    • 使用两个Transformer编码器和两个Transformer解码器设计了GAN风格的对抗训练过程,以获得稳定性。
  2. MT-RVAE [Wang等,2022] 和 TransAnomaly [Zhang等,2021]:

    • 将变分自编码器(VAE)与Transformer相结合,以允许更多的并行化,并将训练成本降低近80%。
    • MT-RVAE设计了一个多尺度Transformer来提取和整合不同尺度的时间序列信息,克服了传统Transformer只提取局部信息用于顺序分析的缺点。
  3. GTA [Chen等,2021c]:

    • 将Transformer与基于图的学习架构结合起来,用于多变量时间序列异常检测。
    • GTA包含图卷积结构来建模影响传播过程,通过替换基础多头注意力机制,考虑了“全局”信息。
  4. AnomalyTrans [Xu等,2022]:

    • 结合Transformer和高斯先验关联,使异常更加可区分。
    • 采用最小最大策略来优化异常模型,约束先验关联和序列关联,以获得更可区分的关联差异。

5.3 分类中的Transformer

Transformer已被证明在各种时间序列分类任务中具有有效性,因为它在捕捉长期依赖方面的显著能力。具体而言:

  1. GTN [Liu等,2021]:

    • 使用两塔Transformer,其中每个塔分别处理时间步级别的注意力和通道级别的注意力。
    • 通过可学习的加权连接(也称为“门控”)来合并两塔的特征。
    • 在13个多变量时间序列分类任务中实现了最先进的结果。
  2. Rußwurm和Körner [2020]:

    • 研究了基于自注意力的Transformer用于原始光学卫星时间序列分类,并与循环神经网络和卷积神经网络进行了比较,取得了最佳结果。
  3. TARNet [Chowdhury等,2022]:

    • 设计了Transformer来学习任务感知的数据重构,增强了分类性能。
    • 利用注意力分数进行重要时间戳的掩蔽和重构,带来了更优越的性能。

另外,还研究了预训练的Transformer在分类任务中的应用:

  1. Yuan和Lin [2020]:

    • 研究了用于原始光学卫星图像时间序列分类的Transformer,并使用自监督预训练模式,因为标记数据有限。
  2. Zerveas等 [2021]:

    • 引入了无监督预训练框架,该模型使用按比例屏蔽的数据进行预训练。
    • 预训练模型随后在分类等下游任务中进行微调。
  3. Yang等 [2021]:

    • 提出使用大规模预训练的语音处理模型解决下游时间序列分类问题,在30个流行的时间序列分类数据集上生成了19个具有竞争力的结果。

6 实验评估与讨论 Experimental Evaluation and Discussion

对典型的具有挑战性的基准数据集ETTm2 [Zhou等,2021] 进行了初步的实证研究,以分析Transformer如何处理时间序列数据。由于经典的统计ARIMA/ETS [Hyndman和Khandakar,2008]模型和基本的RNN/CNN模型在这个数据集上的表现不如Transformer,因此重点关注了实验中具有不同配置的流行时间序列Transformer。

鲁棒性分析

上面描述的许多工作都精心设计了注意力模块,以降低二次计算和内存复杂度,尽管它们实际上使用了一个短的固定大小的输入来在报告的实验中取得最佳结果。这让作者团队对这种高效设计的实际用途产生了疑问。进行了一项鲁棒性实验,延长了输入序列长度,以验证它们处理长期输入序列时的预测能力和鲁棒性。

模型大小分析

在被引入到时间序列预测领域之前,Transformer已经在NLP和CV社区表现出卓越的性能。Transformer在这些领域的一个关键优势是能够通过增加模型大小来提高预测能力。通常,模型容量由Transformer的层数控制,通常设置在12到128之间。然而,当在表3的实验中比较具有不同层数的不同Transformer模型的预测结果时,通常3到6层的Transformer会取得更好的结果。

季节性趋势分解分析

在最近的研究中,研究人员开始意识到季节性趋势分解是Transformer在时间序列预测中性能的关键部分。作为表4中的一个实验所示,采用了在[Wu等,2021]中提出的简单移动平均季节性趋势分解架构来测试各种注意力模块。可以看出,简单的季节性趋势分解模型可以显著提升模型的性能,提高50%到80%。这是一个独特的模块,通过分解来提升性能似乎是时间序列预测中Transformer应用的一个一致现象,值得进一步探索更先进和精心设计的时间序列分解方案。

image-20240313100826602

7 未来研究机会 Future Research Opportunities

在时间序列中,Transformer 的未来研究方向可以从以下几个方面着手:

7.1 时间序列Transformer的归纳偏差

当前的基本Transformer对数据模式和特征没有任何假设。然而,时间序列数据的一个关键特征是其季节性/周期性和趋势模式。一些最近的研究表明,将系列周期性或频率处理纳入时间序列Transformer中可以显著提高性能。此外,一些研究采用了一种看似相反的归纳偏差,但都取得了良好的数值改进。因此,未来的一个方向是根据对时间序列数据的理解和特定任务特性,考虑更有效的方式将归纳偏差引入Transformer中。

7.2 用于时间序列的Transformer和GNN

在应用中,多变量和时空序列变得越来越常见,需要额外的技术来处理高维度数据,特别是捕获维度之间的潜在关系。引入图神经网络(GNN)是一种自然的方式来建模空间依赖性或维度之间的关系。最近的几项研究表明,GNN和Transformer/注意力的组合不仅可以带来显著的性能提升,如交通预测和多模态预测,还能更好地理解时空动态和潜在因果关系。将Transformer和GNN结合起来有效地进行时间序列的时空建模是一个重要的未来方向。

7.3 用于时间序列的预训练Transformer

大规模的预训练Transformer模型已经显著提升了NLP和CV等领域各种任务的性能。然而,针对时间序列的预训练Transformer研究有限,现有研究主要集中在时间序列分类上。因此,如何为时间序列中的不同任务开发适当的预训练Transformer模型,仍然需要在未来进行研究。

7.4 Transformer与体系结构级别的变体

大多数发展中的时间序列Transformer模型都保持了基本Transformer的架构,并主要在注意力模块上进行修改。因此,未来的一个方向是考虑更多的体系结构级别设计,专门针对时间序列数据和任务进行优化。

7.5 用于时间序列的NAS Transformers

超参数,如嵌入维度和头/层的数量,很大程度上会影响Transformer的性能。手动配置这些超参数是耗时的,而且往往导致次优性能。自动ML技术如神经架构搜索(NAS)已成为发现有效深度神经网络架构的流行技术。在近期的研究中,可以发现NLP和CV领域利用NAS自动化Transformer设计的研究。对于行业规模的时间序列数据,这是一个具有实际重要性的方向,自动发现既具有记忆又具有计算效率的Transformer架构,是时间序列Transformer的一个重要未来方向。

8 结论 Conclusion

former模型都保持了基本Transformer的架构,并主要在注意力模块上进行修改。因此,未来的一个方向是考虑更多的体系结构级别设计,专门针对时间序列数据和任务进行优化。

7.5 用于时间序列的NAS Transformers

超参数,如嵌入维度和头/层的数量,很大程度上会影响Transformer的性能。手动配置这些超参数是耗时的,而且往往导致次优性能。自动ML技术如神经架构搜索(NAS)已成为发现有效深度神经网络架构的流行技术。在近期的研究中,可以发现NLP和CV领域利用NAS自动化Transformer设计的研究。对于行业规模的时间序列数据,这是一个具有实际重要性的方向,自动发现既具有记忆又具有计算效率的Transformer架构,是时间序列Transformer的一个重要未来方向。

8 结论 Conclusion

作者团队提供了一份关于时间序列Transformer的调查报告。将审查的方法组织成一个新的分类体系,包括网络设计和应用。并总结了每个类别中的代表性方法,通过实验评估讨论它们的优点和局限性,并突出未来的研究方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/455168.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Redis到底是单线程还是多线程!,【工作感悟】

无论你是做 Python,PHP,JAVA,Go 还是 C#,Ruby 开发的,都离不开使用 Redis。 大部分程序员同学工作中都有用到 Redis,但是只限于会简单的使用,对Redis缺乏整体的认知。 无论是在大厂还是在中小…

pkav之当php懈垢windows通用上传缺陷

环境&#xff1a; Windowsnginxphp 一、php源码 <?php //U-Mail demo ... if(isset($_POST[submit])){$filename $_POST[filename];$filename preg_replace("/[^\w]/i", "", $filename);$upfile $_FILES[file][name];$upfile str_replace(;,&qu…

01-java入门了解--cmd命令、jdk、java的认识

cmd常用命令 java入门需要安装的环境 jdk。&#xff08;下载好jdk&#xff0c;并配置好环境&#xff09;idea。&#xff08;或者其他的编程工具&#xff09; jdk安装目录介绍 第一步&#xff1a;编写程序&#xff08;程序员写.java后缀的文件&#xff09; 第二步&#xff1a;…

【MMDetection3D实战(1)】:环境安装

1.介绍 MMDetection3D首次发布于2018年10月&#xff0c;是面向3D 场景中检测和分割的工具包&#xff0c;可以基于MMDetection3D实现基于点云、图像和多模态数据的3D检测与分割。github仓库地址:https://github.com/open-mmlab/mmdetection3d 目前MMDetection3D支持20多种不同的…

FastWiki v0.1.0发布!新增超多功能

FastWiki 发布 v0.1.0 https://github.com/239573049/fast-wiki/releases/tag/v0.1.0 更新日志 兼容OpenAI接口格式删除Blazor版本UI删除useEffect,解决可能存在问题的bug修复对话可以看到所有对话Merge branch ‘master’ of https://gitee.com/hejiale010426/fast-wiki更新…

【测试】1. 概念 + 基础篇

概念篇 测试相较于开发岗位而言&#xff0c;如果同学们的编程能力稍微弱一些&#xff0c;可以尝试测试方向&#xff08;更简单&#xff09; 1. 什么是软件测试 最常见的理解是&#xff1a;软件测试就是找BUG&#xff0c;发现缺陷。 早期&#xff0c;人们更多的将测试看成是对…

STM32第七节:GPIO输入——按键检测(包含带参宏)

目录 前言 STM32第七节&#xff1a;GPIO输入——按键检测&#xff08;包含带参宏&#xff09; 带参宏 代码替换展示 定义带参宏 GPIO输入——按键检测 硬件部分 端口输入数据寄存器&#xff08;GPIOx_IDR&#xff09; 编写程序 配置以及编写bsp_key文件 main函数编程…

用虚拟机安装win10超详细教程。

前言&#xff1a;安装中有任何疑问&#xff0c;可以在评论区提问&#xff0c;博主身经百战会快速解答小伙伴们的疑问 BT、迅雷下载win10镜像&#xff08;首先要下载win10的镜像&#xff09;&#xff1a;ed2k://|file|cn_windows_10_business_editions_version_1903_updated_sep…

项目中日志采集实践:技术、工具与最佳实践

✨✨谢谢大家捧场&#xff0c;祝屏幕前的小伙伴们每天都有好运相伴左右&#xff0c;一定要天天开心哦&#xff01;✨✨ &#x1f388;&#x1f388;作者主页&#xff1a; 喔的嘛呀&#x1f388;&#x1f388; 目录 引言 一. 选择合适的日志框架 二. 配置日志框架 三. 使用…

web 课程

文章目录 格式图片超链接书签链接表格例子横跨束跨 格式 <br /> <br/> #换行图片 <img> 标签是用于在网页中嵌入图像的 HTML 标签&#xff0c;它有一些属性可以用来控制图像的加载、显示和交互。以下是对 <img> 标签常用属性的详细介绍&#xff1a;…

SpringCloud Gateway 新一代网关

一、前言 接下来是开展一系列的 SpringCloud 的学习之旅&#xff0c;从传统的模块之间调用&#xff0c;一步步的升级为 SpringCloud 模块之间的调用&#xff0c;此篇文章为第六篇&#xff0c;即介绍 Gateway 新一代网关。 二、概述 2.1 Gateway 是什么 Gateway 是在 Spring 生…

在域控的Users目录下批量创建用户组,名称来自Excel

对于CSV文件&#xff0c;PowerShell可以直接读取并处理&#xff0c;无需额外安装模块。假设你的CSV文件中&#xff0c;用户组名称在第一列&#xff0c;文件名为"groups.csv"&#xff0c;可以使用以下PowerShell脚本来批量创建&#xff1a; # 读取CSV文件中的数据 $g…

学生时期学习资源同步-1 第一学期结业考试题2

原创作者&#xff1a;田超凡&#xff08;程序员田宝宝&#xff09; 版权所有&#xff0c;引用请注明原作者&#xff0c;严禁复制转载

【Python】科研代码学习:十 evaluate (metrics,Evaluator)

【Python】科研代码学习&#xff1a;十 evaluate Evaluate评估类型简单使用教程如何寻找想要的 metric使用 Evaluator与 transformers.trainer 配合使用疑问与下节预告 Evaluate 【HF官网-Doc-Evaluate&#xff1a;API】 看名字就可以知道&#xff0c;Evaluate 是 HF 提供的便…

中国湿地沼泽分类分布数据集

数据下载链接&#xff1a;百度云下载链接 引言 随着经济社会的快速发展和城市化进程的加速推进&#xff0c;农业发生功能性转变&#xff0c;从单一生产功能向生产、生活、生态多功能服务首都经济社会发展转变。湿地与农田、草地、森林三大生态系统整合形成完整的现代农业生态服…

Linux环境(Ubuntu)上搭建MQTT服务器(EMQX )

目录 概述 1 认识EMQX 1.1 EMQX 简介 1.2 EMQX 版本类型 2 Ubuntu搭建EMQX 平台 2.1 下载和安装 2.1.1 下载 2.1.2 安装 2.2 查看运行端口 3 运行Dashboard 管理控制台 3.1 查看Ubuntu上的防火墙 3.2 运行Dashboard 管理控制台 概述 本文主要介绍EMQX 的一些内容&a…

云计算 3月12号 (PEX)

什么是PXE&#xff1f; PXE&#xff0c;全名Pre-boot Execution Environment&#xff0c;预启动执行环境&#xff1b; 通过网络接口启动计算机&#xff0c;不依赖本地存储设备&#xff08;如硬盘&#xff09;或本地已安装的操作系统&#xff1b; 由Intel和Systemsoft公司于199…

游戏数据处理

游戏行业关键数据指标 ~ 总激活码发放量、总激活量、总登录账号数 激活率、激活登录率 激活率 激活量 / 安装量 激活率 激活量 / 激活码发放量 激活且登录率 激活且登录量 / 激活码激活量 激活且登录率应用场景 激活且登录率是非常常用的转化率指标之一&#xff0c;广泛…

今天我们来学习一下关于MySQL数据库

目录 前言: 1.MySQL定义&#xff1a; 1.1基础概念&#xff1a; 1.1.1数据库&#xff08;Database&#xff09;&#xff1a; 1.1.2表&#xff08;Table&#xff09;&#xff1a; 1.1.3记录&#xff08;Record&#xff09;与字段&#xff08;Field&#xff09;&#xff1a; …

C语言strcmp函数讲解

strcmp函数介绍 在cplusplus官网上是这样介绍strcmp函数的 这里的意思是假如我们输入两个字符串一个是abcdef另一个也是abcdef他们两个字符的每个元素的ascii码值进行比较如果两个元素的ascii码值都相等就移动到下一个元素a与a进行比较b与b进行比较直到遇到\0为止&#xff0c…