论文笔记: One Fits All:Power General Time Series Analysis by Pretrained LM

1 intro

  • 时间序列领域预训练模型/foundation 模型的研究还不是很多
    • 主要挑战是缺乏大量的数据来训练用于时间序列分析的基础模型
  • ——>论文利用预训练的语言模型进行通用的时间序列分析
    • 为各种时间序列任务提供了一个统一的框架

 

  • 论文还调查了为什么从语言领域预训练的Transformer几乎不需要任何改动就可以适应时间序列分析
    • —预训练Transformer中的自注意模块通过训练获得了执行某些非数据相关操作的能力
    • 这些操作与输入模式上的主成分分析(PCA)密切相关

2 模型

2.1 模型架构

  •  利用自然语言处理预训练的Transformer的参数进行时间序列分析
    • 重点关注GPT-2模型
  • 还尝试了其他模型,如BERT和BEiT,以进一步证明跨领域知识传递的通用性存在于广泛的预训练模型中

2.1.1 冻结的预训练块

  • 由于自注意层和前馈神经网络(FFN)包含了来自预训练语言模型的大部分学习知识,因此我们选择在微调时冻结他们

2.1.2 位置嵌入和层归

        

  • 为了以最小的努力增强下游任务,我们微调了位置嵌入和layer normalization层
    • layer normalization 计算均值和方差也是用神经网络计算的,所以也需要微调
  • 机器学习笔记:神经网络层的各种normalization_relu 和 batchnorm的神经元数目一样吗_UQI-LIUWJ的博客-CSDN博客

2.1.3  输入embedding

  • 重新设计和训练输入嵌入层,以将NLP预训练模型应用于各种任务和新的模态
    • 将时间序列数据投影到特定预训练模型所需的维度
    • 使用linear probing

2.1.4 归一化

  • 数据归一化对于各种模态的预训练模型至关重要
    • 除了预训练LM中使用的Layer Normalization外,还加入了一个简单的数据归一化块,即反向实例归一化(reverse instance norm)
    • 简单地使用均值和方差对输入时间序列进行归一化,然后将它们添加回输出中

2.1.5 patching

  • 为了提取局部语义信息,论文利用分块(Patching)
    • 通过聚合相邻的时间步骤来形成一个基于Patch的Token
    • 在normalization 后进行patching

4 实验

4.1 主要结论

4.2 补全

 4.3 分类

 4.4 异常检测

 4.5 长期预测

 4.6 短期预测

 4.7 few shot 预测

只使用很少的一部分训练数据(10%,5%)

 4.8 zero-shot 预测

在A数据集上训练,在B数据集上测试

 5 消融实验

5.1 模型的选择

  • 分析了GPT2层数和微调参数的选择。
  • 附录H中的结果表明,与完整或少量层数相比,具有6层的GPT2是一个合理的选择,并且部分冻结可以避免灾难性遗忘,使微调能够在不过拟合的情况下进行。

5.2 预训练的有效性

  • GPT2(6)在时间序列任务中表现优于GPT2(0)和GPT2随机初始化
    • ——>具有预训练参数的GPT2可以在时间序列任务上取得改进
  • 此外,GPT2(6)的表现也优于GPT2非冻结,表明部分冻结也有所帮助。

  • 附录H.2中的结果显示,随机初始化的GPT2(6)在冻结情况下表现不佳,预训练知识对于时间序列任务至关重要。

 6  预训练模型在跨领域知识转移方面的普遍性

  • 对BERT和图像预训练领域的BEiT进行了实验
    • 知识转移的能力不仅限于基于GPT2的预训练语言模型

 7 预训练模型中的Transformer和PCA 对应

证明略

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/94657.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python(Web时代)—— Django数据库整合

简介 ORM框架介绍 ORM(Object Relation Mapping)框架,可以帮助我们把类和数据表进行一个映射,让我们可以通过类和类对象来直接操作数据库中的数据。 优势:根据对接的数据库引擎翻译成对应的sql语句,所以…

恒运资本:两市迎普涨,创业板指涨超3%,汽车配件等板块走强

29日早盘,A股两市低开高走,沪指涨幅超1%,创业板指涨超3%。截至午间收盘,沪指涨1.39%报3141.82点,深成指涨2.41%,创业板指涨3.47%%,两市算计成交6265亿元。北向资金净流入超38亿元。盘面上&#…

手机云控设计思路

本系统为任务分发系统,上游发布任务或者接受其他平台系统分发的任务,对任务进行规则引擎处理后分类,由核心分发系统部分进行对存活的空闲终端进行分发任务,终端做完任务后进行反馈给任务系统. 核心要处理的点是终端存活与空闲的统计、任务平均分布下发给终端的算法,保证分布的…

基于AVR128单片机智能传送装置

一、系统方案 1、板载可变电阻(电位器)R29的电压作为处理器ATmega128的模数转换模块中单端ADC0的模拟信号输入(跳线JP13短接)。 2、调节电位器,将改变AD转换接口ADC0的模拟信号输入,由处理器完成ADC0的A/D转…

Qt:界面实时响应鼠标拖动绘制

采用双缓冲实现界面实时响应鼠标的拖动绘制。 思想如下:首先需要两张画布pix和tempPix,他们都是QPixmap实例;pix用来保存初始界面或上一阶段以完成的绘制;tempPix用来作为鼠标拖动时的实时界面绘制;当鼠标左键按下后拖…

vue 使用C-Lodop打印小票

先从官网下载js文件 https://www.lodop.net/LodopDemo.html 打开安装程序,一直下一步既可,我这边已经安装过就不演示了。 // 引入 import { getLodop } from /utils/CLodopfuncs.js;// 使用 let LODOP getLodop()let Count LODOP.GET_PRINTER_COUNT…

串行FIR滤波器

串行 FIR 滤波器设计 串行设计,就是在 16 个时钟周期内对 16 个延时数据分时依次进行乘法、加法运算,然后在时钟驱动下输出滤波值。考虑到 FIR 滤波器系数的对称性,计算一个滤波输出值的周期可以减少到 8 个。串行设计时每个周期只进行一次乘…

npm install sentry-cli失败的问题

1. 目前报错 2. 终端运行 npm set ENTRYCLI_CDNURLhttps://cdn.npm.taobao.org/dist/sentry-cli npm set sentrycli_cdnurlhttps://cdn.npm.taobao.org/dist/sentry-cli3. 再安装 npx sentry/wizardlatest -i nextjs即可成功

蓝牙模块产品认证-国际市场准入准则之加拿大IC认证基础知识

蓝牙模块产品认证-国际市场准入准则之加拿大IC认证基础知识 一:前言加拿大IC介绍 1.1:IC更名 2016年3月加拿大工业部(IC, Industry Canada)正式更名为加拿大创新、科学和经济发展 部(ISED, Innovation, Science and Economic Development Canada) ISED…

汇编-内中断

中断的意思是指, CPU不再接着(刚执行完的指令) 向下执行, 而是转去处理这个特殊信息。 8086CPU,当CPU内部有下面的情况发生的时候, 将产生相应的中断信息: (1)除法错误, 比如, 执行div指令产生的除法溢出; (2)单步执行;   (3)执行into指令; (4)执行int指令。 CPU…

双基证券:预计未来还会有更多政策来吸引增量资金

双基证券表明,8月27日,活泼资本商场五大方针出台:证券买卖印花税折半征收;阶段性收紧IPO节奏;上市房企再融资不受破发、破净和亏损限制;规范控股股东与实践操控人减持行为;融资保证金最低份额由…

homeassistant ubuntu自启动 网络设置

命令行安装virtualbox 或者安装包 hass官网下载 haos_ova-10.4.vdi virtualbox 装hass 最少2G内存 其他省略 自启动: gnome-session-properties 添加 VBoxManage startvm hass --type headless hass为自己的虚拟机名字 网络配置如下: 要全部打开

图像扭曲之锯齿

源码: void wave_sawtooth(cv::Mat& src,cv::Mat& dst,double amplitude,double wavelength) {dst.create(src.rows, src.cols, CV_8UC3);dst.setTo(0);double xAmplitude amplitude;double yAmplitude amplitude;int xWavelength wavelength;int yWave…

checkstyle检查Java编程样式:识别应该被定义为final的类

介绍 总体说明 checkstyle可以使用FinalClass检查应该被定为final的类。如果违反了,就会报违反项: https://checkstyle.sourceforge.io/checks/design/finalclass.html checkstyle规则集文件对FinalClass模块的配置: 哪些类可以被定义fi…

【整合一切08/8】:用变压器实现语言翻译

一、说明 这里是国外高手实现德语-英语互译的变压器模型;这是“已实现的变压器”系列最后一篇文章。编码器和解码器相结合,创建了一个能够轻松将德语翻译成英语的模型。 图片来源:作者 本系列的前七篇文章详细研究了变压器的组件:…

数据结构——栈

栈 栈的理解 咱们先不管栈的数据结构什么,先了解栈是什么,栈就像一个桶一样,你先放进去的东西,被后放进的的东西压着,那么就需要把后放进行的东西拿出才能拿出来先放进去的东西,如图1,就像图1中…

【缓存设计】记一种不错的缓存设计思路

文章目录 前言场景设计思路小结 前言 之前与同事讨论接口性能问题时听他介绍了一种缓存设计思路,觉得不错,做个记录供以后参考。 场景 假设有个以下格式的接口: GET /api?keys{key1,key2,key3,...}&types{1,2,3,...}其中 keys 是业务…

小研究 - J2EE 应用服务器的软件老化测试研究

软件老化现象是影响软件可靠性的重要因素,长期运行的软件系统存在软件老化现象,这将影响整个业务系统的正常运行,给企事业单位带来无可估量的经济损失。软件老化出现的主要原因是操作系统资源消耗殆尽,导致应用系统的性能下降甚至…

sql:SQL优化知识点记录(五)

(1)explain之例子 (2)索引单表优化案例 上面的功能已经实现,但是分析功能, 使用explain分析这条sql: 发现type为All Extra:有Using filesort (文件内排序) 这…

Java学数据结构(4)——散列表Hash table 散列函数 哈希冲突

目录 引出散列表Hash table关键字Key和散列函数(hash function)散列函数解决collision哈希冲突(碰撞)分离链接法(separate chaining)探测散列表(probing hash table)双散列(double hashing) Java标准库中的散列表总结 引出 1.散列表,key&…