系列文章链接
论文一:2020 Informer:长时序数据预测
论文二:2021 Autoformer:长序列数据预测
论文三:2022 FEDformer:长序列数据预测
论文四:2022 Non-Stationary Transformers:非平稳性时序预测
论文五:2022 Pyraformer:基于金字塔图结构的时序预测
论文六:2023 Crossformer:多变量时序预测
论文七:2023 LSFT-Linear:质疑transformer能力的线性预测模型
论文链接:Pyraformer.pdf
github链接:https://github.com/ant-research/Pyraformer
参考解读:https://zhuanlan.zhihu.com/p/467765457
本文是上海交通大学的团队发表的,背景仍然是如何降低计算复杂度&更好地进行长期依赖性关系的表征。本文的创新点主要提现在以下几点:
- 金字塔注意力机制(Pyramidal Attention Module):不同于原始的注意力机制,本文采用形似金字塔的图结构对时序数据进行转换,采用这样的结构转换就可以提取当前数据和邻近点位的周期内(尺度内)特性以及长期点位之间的周期间(尺度间)的特性,并且可以提取多层级的多分辨率的特性。对于每个节点而言,可以表示为一个由父节点、自身以及子节点组成的集合:
那对于每个节点而言,不需要对每个点位都去计算对应的注意力,只需要在对应关系内的节点进行运算,降低了计算复杂度;但是在实际计算过程中由于框架(tensorflow和pytorch)的限制,计算复杂度并没有达到预期的 O ( L ) O(L) O(L),本文针对此进行了技巧设计以减少计算和内存成本;
- 粗尺度构造模块:对于每个层级的节点而言,从子节点出发,从下至上引入粗尺度的初始化卷积。整个模块的设计是为了降低参数量&计算复杂度(类似残差结构),具体解释写的比较模糊,可以参考代码实现;