AI论文速读 |2024[TPAMI]【综述】自监督学习在时间序列分析的分类、进展与展望

题目: Self-Supervised Learning for Time Series Analysis: Taxonomy, Progress, and Prospects

作者:Kexin Zhang, Qingsong Wen(文青松), Chaoli Zhang, Rongyao Cai, Ming Jin(金明), Yong Liu(刘勇), James Zhang, Yuxuan Liang(梁宇轩), Guansong Pang(庞观松), Dongjin Song(宋东进), Shirui Pan(潘世瑞)

机构:浙江大学,松鼠AI,浙江师范大学,莫纳什大学(Monash),蚂蚁集团,香港科技大学(广州),新加坡管理大学(SMU),康涅狄格大学(Connecticut),格里菲斯大学(Griffith)

arXiv网址https://arxiv.org/abs/2404.01340

IEEE网址https://ieeexplore.ieee.org/abstract/document/10496248/

Cool Paperhttps://papers.cool/arxiv/2404.01340

项目地址https://github.com/qingsongedu/Awesome-SSL4TS

关键词:自监督学习,时间序列分析。

TL, DR: 本文全面回顾了自监督学习(SSL)在时间序列分析中的最新进展,提出了一个包含生成式、对比式和对抗式三种主要方法的新分类体系,并对这些方法的关键思想、主要框架、优缺点进行了深入分析。此外,文章还总结了在时间序列预测、分类、异常检测和聚类任务中常用的数据集,并探讨了时间序列SSL未来的研究方向。

该综述23年6月上线arXiv,24年4月初被接受,目前已经有32个引用。

🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀
欢迎大家关注时空探索之旅时空探索之旅QRCode

摘要

自监督学习(SSL)最近在各种时间序列任务上取得了令人印象深刻的表现。 SSL最突出的优点是减少了对标记数据的依赖。 基于预训练和微调策略,即使少量的标记数据也能实现高性能。 与许多已发表的关于计算机视觉和自然语言处理的自监督综述相比,仍然缺少针对时间序列 SSL 的全面综述。 为了填补这一空白,我们在本文中回顾了当前最先进的时间序列数据 SSL 方法。 为此,本文首先全面回顾与 SSL 和时间序列相关的现有综述,然后从基于生成、基于对比和基于对抗性三个角度进行总结,为现有时间序列 SSL 方法提供新的分类。 这些方法进一步分为十个子类别,并对它们的关键直觉、主要框架、优点和缺点进
行了详细的回顾和讨论。 为了方便时间序列 SSL 方法的实验和验证,还总结了时间序列预测、分类、异常检测和聚类任务中常用的数据集。 最后,提出了 SSL 时间序列分析的未来方向。

SSL4TS分类

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决的问题是如何在时间序列数据分析中应用自监督学习(Self-Supervised Learning, SSL)以减少对标记数据的依赖。时间序列数据在许多实际场景中非常普遍,例如人类活动识别、工业故障诊断、智能建筑管理和医疗保健等。然而,获取大量标记数据往往是耗时且困难的。自监督学习通过使用预训练和微调策略,即使只有少量标记数据也能达到高性能,从而减少了对标记数据的依赖。

论文的主要贡献包括:

  1. 提出了一个新的分类法,将现有的时间序列SSL方法分为三类:基于生成的(Generative-based)、基于对比的(Contrastive-based)和基于对抗的(Adversarial-based)。
  2. 对每个子类别进行了详细回顾和讨论,包括它们的关键直觉、主要框架、优缺点。
  3. 总结了在时间序列预测、分类、异常检测和聚类任务中常用的数据集。
  4. 讨论了时间序列SSL的未来方向,包括数据增强的选择与组合、正负样本的选择、时间序列SSL的归纳偏差、理论分析、对抗性攻击和稳健性分析、时间序列领域适应、预训练和大型模型、协作系统中的时间序列SSL以及时间序列SSL的基准评估等。

通过这项工作,作者希望能够激发对时间序列SSL领域的进一步研究兴趣。

Q: 有哪些相关研究?

A: 这篇论文提到了与时间序列自监督学习(SSL)相关的多个研究领域和具体工作,可以概括如下:

  1. 自监督学习(SSL): 论文提到了在计算机视觉(CV)和自然语言处理(NLP)领域中SSL的成功应用,并探讨了将SSL扩展到时间序列数据的潜力和挑战。
  2. 时间序列分析: 论文讨论了时间序列数据的独特属性,如季节性、趋势和频域信息,并指出直接将为图像或语言数据设计的SSL技术应用到时间序列数据上通常不可行。
  3. 生成模型: 论文中提到了使用生成模型进行时间序列分析的方法,包括自回归模型、自编码器重建和扩散模型。
  4. 对比学习: 论文探讨了基于对比的学习策略,包括通过数据增强或上下文采样生成正负样本的方法。
  5. 对抗生成网络(GANs): 论文中提到了使用GANs进行时间序列数据的生成和插补,以及作为辅助表示增强的策略。
  6. 时间序列数据集: 论文总结了在时间序列预测、分类、异常检测和聚类任务中常用的数据集。
  7. 时间序列SSL的未来方向: 论文提出了多个未来研究方向,包括数据增强的选择与组合、正负样本的选择、时间序列SSL的归纳偏差、理论分析、对抗性攻击和稳健性分析、时间序列领域适应、预训练和大型模型、协作系统中的时间序列SSL以及时间序列SSL的基准评估等。

具体到文献,论文中引用了大量的相关工作,包括但不限于以下几篇:

  • [17] A. Jaiswal, A. R. Babu, M. Z. Zadeh, D. Banerjee, and F. Makedon, “A survey on contrastive self-supervised learning,” Technologies, vol. 9, no. 1, 2021.
  • [18] L. Jing and Y. Tian, “Self-supervised visual feature learning with deep neural networks: A survey,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 43, no. 11, pp. 4037–4058, 2021.
  • [19] E. Eldele, M. Ragab, Z. Chen, M. Wu, C.-K. Kwoh, and X. Li, “Label-efficient time series representation learning: A review,” 2023.
  • [20] S. Deldari, H. Xue, A. Saeed, J. He, D. V. Smith, and F. D. Salim, “Beyond just vision: A review on self-supervised representation learning on multimodal and temporal data,” CoRR, vol. abs/2206.02353, 2022.

这些相关工作为论文提供了理论基础和方法论支持,并且论文在这些研究的基础上进行了扩展和深化,特别是在时间序列数据的自监督学习方面。

SSL不同模态综述

Q: 论文如何解决这个问题?

A: 论文通过以下几个步骤来解决时间序列数据分析中的自监督学习问题:

  1. 新分类法提出:论文首先提出了一个新的分类法,将现有的时间序列自监督学习(SSL)方法分为三个主要类别:基于生成的(Generative-based)、基于对比的(Contrastive-based)和基于对抗的(Adversarial-based)。这种分类有助于系统地理解和比较不同的SSL方法。
  2. 详细回顾和讨论:对于每个SSL子类别,论文详细回顾了相关方法,并讨论了它们的关键直觉、主要框架、优势和劣势。这为选择合适的SSL方法提供了理论基础和实践指导。
  3. 数据集总结:论文总结了在时间序列预测、分类、异常检测和聚类任务中常用的数据集。这有助于研究者在实验和验证SSL方法时有一个共同的基准。
  4. 未来方向探讨:论文讨论了时间序列SSL的未来研究方向,包括数据增强的选择与组合、正负样本的选择、时间序列SSL的归纳偏差、理论分析、对抗性攻击和稳健性分析、时间序列领域适应、预训练和大型模型、协作系统中的时间序列SSL以及时间序列SSL的基准评估等。这些方向为未来的研究提供了可能的探索路径。
  5. 实验和验证:虽然论文没有提供具体的实验结果,但它为如何进行实验和验证SSL方法提供了指导。研究者可以根据论文中的分类和讨论设计实验,验证不同SSL方法在时间序列数据上的有效性。

通过这些步骤,论文旨在为时间序列数据分析中的自监督学习提供一个全面的框架,并推动该领域的研究进展。

3种生成式自监督

  1. 自回归预测(Autoregressive-based forecasting):使用过去的时间序列数据来预测未来的值。
  2. 自编码器重建(Autoencoder-based reconstruction):通过编码器和解码器重建输入的时间序列数据。
  3. 扩散生成(Diffusion-based generation):使用逐步添加噪声的过程来生成新的数据样本。

5种对比式自监督

  1. 采样对比(Sampling contrast):通过随机采样来构建正负样本对。
  2. 预测对比(Prediction contrast):使用预测任务来构建正负样本对。
  3. 增强对比(Augmentation contrast):通过数据增强技术来生成不同的数据视图。
  4. 原型对比(Prototype contrast):使用原型(如聚类中心)来构建样本对。
  5. 专家知识对比(Expert knowledge contrast):利用领域知识来指导样本对的构建。

3种对抗式自监督

  1. 时间序列生成和插补(Time series generation and imputation):使用GANs生成新的时间序列或填补缺失值。
  2. 辅助表示增强(Auxiliary representation enhancement):将对抗信号作为正则化项,以提高模型的稳健性。

Q: 论文做了哪些实验?

A: 论文本身并没有进行特定的实验来验证提出的分类法或方法,而是提供了一个全面的文献回顾和分析。具体来说,论文的主要贡献集中在以下几个方面:

  1. 提出新的分类法:论文提出了一个新的分类法,将时间序列自监督学习方法分为生成基(Generative-based)、对比基(Contrastive-based)和对抗基(Adversarial-based)三个主要类别,并进一步细分为十个子类别。
  2. 详细回顾和讨论:对于每个子类别,论文详细回顾了相关的方法,并讨论了它们的关键直觉、主要框架、优势和劣势。
  3. 数据集总结:论文总结了在时间序列预测、分类、异常检测和聚类任务中常用的数据集,为实验和验证SSL方法提供了基准。
  4. 未来方向的讨论:论文讨论了时间序列SSL的未来研究方向,为未来的研究提供了可能的探索路径。

尽管论文没有进行实验验证,但它为如何进行实验和验证SSL方法提供了指导。研究者可以根据论文中的分类和讨论设计实验,验证不同SSL方法在时间序列数据上的有效性。此外,论文中引用了大量的相关工作,这些工作可能包含了使用类似方法的实验结果和验证。

如果需要查看具体的实验结果和验证,可以参考论文中引用的相关文献,这些文献可能提供了具体的实验设置、结果和分析。

时序数据集

Q: 有什么可以进一步探索的点?

A: 论文提出了时间序列自监督学习(SSL)的多个未来研究方向,可以进一步探索的点包括:

  1. 数据增强的选择与组合:探索不同的数据增强方法对时间序列SSL性能的影响,并研究如何选择或组合这些方法以获得最佳效果。
  2. 正负样本的选择:研究如何更准确地选择正负样本对,以提高对比学习等SSL方法的性能。
  3. 时间序列SSL的归纳偏差:分析时间序列数据的特性,探索如何引入归纳偏差来指导模型学习,从而提高SSL的效果。
  4. 理论分析:对SSL方法进行理论分析,包括理解其学习机制、优化目标和表示能力等。
  5. 对抗性攻击和稳健性分析:研究时间序列模型在对抗性攻击下的脆弱性,并探索提高模型稳健性的策略。
  6. 时间序列领域适应:探索如何将在一个领域预训练的模型有效地迁移到另一个领域,以及如何利用领域知识来提高SSL的性能。
  7. 预训练和大型模型:研究预训练模型在大规模时间序列数据集上的表现,以及如何利用大型模型来提高SSL的性能。
  8. 协作系统中的时间序列SSL:探索在分布式系统或协作系统中部署时间序列SSL的方法,以及如何保护用户隐私。
  9. 时间序列SSL的基准评估:建立和完善时间序列SSL的评估基准,包括标准化的数据集、评估协议和比较分析。
  10. 混合SSL策略:研究如何结合多种SSL策略来提高时间序列分析的性能。

这些方向不仅涉及方法论的改进,也包括对现有理论的深化和新应用领域的探索。研究者可以根据具体的研究兴趣和实际问题选择适合的研究方向进行深入探索。

Q: 总结一下论文的主要内容

A: 这篇论文的主要内容可以总结如下:

  1. 背景与动机:论文讨论了自监督学习(SSL)在时间序列分析中的重要性,特别是在减少对标记数据依赖方面的优势。时间序列数据在多个领域中普遍存在,但获取标记数据往往是困难和耗时的。
  2. 新分类法:论文提出了一个新的分类法,将时间序列SSL方法分为三个主要类别:基于生成的(Generative-based)、基于对比的(Contrastive-based)和基于对抗的(Adversarial-based)方法,并进一步细分为十个子类别。
  3. 详细回顾:对于每个SSL子类别,论文提供了详细的回顾和讨论,包括它们的关键直觉、主要框架、优势和劣势。
  4. 数据集总结:论文总结了在时间序列预测、分类、异常检测和聚类任务中常用的数据集,为实验和验证SSL方法提供了基准。
  5. 未来方向:论文讨论了时间序列SSL的未来研究方向,包括数据增强的选择与组合、正负样本的选择、时间序列SSL的归纳偏差、理论分析、对抗性攻击和稳健性分析、时间序列领域适应、预训练和大型模型、协作系统中的时间序列SSL以及时间序列SSL的基准评估等。
  6. 贡献:论文的主要贡献在于提供了一个全面的时间序列SSL方法的分类和回顾,以及对未来研究方向的展望,旨在推动该领域的研究进展。

论文没有进行特定的实验验证,但通过广泛的文献回顾和分析,为时间序列数据分析中的自监督学习提供了一个结构化的视角,并为未来的研究工作指明了方向。

附录

本文的附录有很多关于自监督学习的讨论值得一看

根据您提供的论文内容,本文的附录(Appendix)部分包含了以下内容:

A. 自监督学习范式

介绍了生成式(Generative-based)、对比式(Contrastive-based)和对抗式(Adversarial-based)三种自监督学习(SSL)方法的模型架构。

SSL范式

B. SSL四个主要流程的进一步描述和总结

对SSL的四个主要流程:正负样本的构建、预文本任务的进一步分类、SSL模型架构的特点、以及SSL损失函数的目标进行了详细描述和总结。

前置任务分类

C. 3种生成式的优缺点

对生成式方法中的三种子方法(自回归预测、自编码器重建和扩散生成)的优点和缺点进行了总结。

生成式的优缺点

D. RNN, CNN和GNN的优缺点

对时间序列分析中常用的三种神经网络模型(循环神经网络RNN、卷积神经网络CNN和图神经网络GNN)的优点和缺点进行了讨论。

E. 5种对比式的优缺点

对对比式方法中的五种子方法(采样对比、预测对比、增强对比、原型对比和专家知识对比)的优点和缺点进行了总结。

F. 2种对抗式的优缺点

对对抗式方法中的两种子方法(时间序列生成和插补、辅助表示增强)的优点和缺点进行了总结。

G. 3种SSL方法的特点和局限性

总结了三种SSL方法(生成式、对比式和对抗式)的特点和局限性。

3种SSL范式的优缺点

H. 任务流程,评价指标和示例

描述了异常检测、预测、分类和聚类任务的评估指标、示例和任务流程。

SSL4TS的任务流程

I. 不同方法的定量比较

对不同方法的性能进行了定量比较,并分析了方法与任务之间的相关性。

异常检测定量比较预测量化结果

标、示例和任务流程。

[外链图片转存中…(img-Yzb1abKH-1713851408832)]

I. 不同方法的定量比较

对不同方法的性能进行了定量比较,并分析了方法与任务之间的相关性。

[外链图片转存中…(img-7HY8pU7j-1713851408832)][外链图片转存中…(img-NaFnCewA-1713851408832)]

分类和聚类定量比较
🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀
欢迎大家关注时空探索之旅时空探索之旅QRCode

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/568727.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

运维 kubernetes(k8s)基础学习

一、容器相关 1、发展历程:主机–虚拟机–容器 主机类似别墅的概念,一个地基上盖的房子只属于一个人家,很多房子会空出来,资源比较空闲浪费。 虚拟机类似楼房,一个地基上盖的楼房住着很多人家,相对主机模式…

【python程序打包教程】PyInstaller一键打包Python程序为独立可执行exe文件

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 《------往期经典推…

springboot论文格式系统

采用springbootmysqlhtmlvue技术 详细运行视频地址B站运行效果视频地址 (1)系统具备用户管理功能,包括用户注册、登录、权限管理等功能。 (2)系统具备格式规范管理功能,包括格式规范创建、编辑、删除等操…

Unity系统学习笔记

文章目录 1.基础组件的认识1.0.组件继承关系图1.1.项目工程文件结构,各个文件夹都是做什么的?1.2.物体变化组件1.2.3.三维向量表示方向1.2.4.移动物体位置附录:使用变换组件实现物体WASD移动 1.3.游戏物体和组件的显示和禁用1.3.1.界面上的操…

面试八股——RabbitMQ

消息丢失问题 消息确认机制 生产者与MQ之间的消息确认: 当MQ成功接收消息后,会返回给生产者一个确认消息。如果在规定时间内生产者未收到确认消息,则任务消息发送失败。 MQ与消费者之间的消息确认: 当MQ成功接收消息后&#…

related_name和related_query_name属性

在Django模型继承中,假如在外键或多对多字段中使用了related_name属性或related_query_name属性,则必须为该字段提供一个独一无二的反向名字和查询名字。但是,这样在抽象基类中一般会引发问题,因为基类中的字段都被子类继承并且保…

Python网络爬虫-详解XPath匹配网页数据

前言 XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言。XPath使用路径表达式来选取XML文档中的节点或节点集。这些节点是通过沿着路径(path)或者步(steps)来选取…

从0到1—POC编写基础篇(一)

POC编写基础篇 POC的概念 在网络安全领域中,POC的概念是指"Proof of Concept",也被称为"攻击验证"。它是指安全研究人员或黑客用来证明某个漏洞、弱点或安全问题存在的实证或演示。 网络安全研究人员经常通过开发POC来展示一个漏洞的…

【Node.js】03 —— HTTP 模块探索

🌟Node.js之HTTP模块探索✨ 🌟引言 在网络编程中,HTTP协议无处不在。在Node.js的世界里,我们可以通过内置的http模块来轻松创建HTTP服务器和客户端,实现数据的接收和发送。今天就让我们一起打开这扇门,探索…

SpringBoot + kotlin 协程小记

前言: Kotlin 协程是基于 Coroutine 实现的,其设计目的是简化异步编程。协程提供了一种方式,可以在一个线程上写起来像是在多个线程中执行。 协程的基本概念: 协程是轻量级的,不会创建新的线程。 协程会挂起当前的协…

MATLAB 数据类型

MATLAB 数据类型 MATLAB 不需要任何类型声明或维度语句。每当 MATLAB 遇到一个新的变量名,它就创建变量并分配适当的内存空间。 如果变量已经存在,那么MATLAB将用新内容替换原始内容,并在必要时分配新的存储空间。 例如, Tota…

CentOS-7安装grafana

一、通用设置(分别在4台虚拟机设置) 1、配置主机名 hostnamectl set-hostname --static 主机名2、修改hosts文件 vim /etc/hosts 输入: 192.168.15.129 master 192.168.15.133 node1 192.168.15.134 node2 192.168.15.136 node33、 保持服…

(Oracle)SQL优化案例:组合索引优化

项目场景 项目上的ETL模型里有如下SQL语句。执行速度非常慢,每次只查询200条数据,但却需要20多秒的时间。再加上该SQL查询出的数据同步频率很高,这个速度是完全不能忍受的。 因为项目隐私,所以对表及字段做了改写。 SELECT ID…

SVN小乌龟汉化问题

1.首先确认中文语言包和SVN版本需要一致(点击右键 选择最后一个选项即可查看) 官网链接 点击这个官网链接可以下载对应版本的中文包 2.下载好之后直接无脑下一步安装即可 3.如果还是没有中文,找到这个文件夹,把里面的内容全部删…

SpaceX的核心Fact Sheet

首先给大家分享一组SpaceX的关键数据,让大家对这个神秘公司有个定量认知: 2024年SpaceX预计收入可达130亿美金,同比增长54%,预计2035年可达1000亿美金 SpaceX目前已经处于盈利状态,具体利润规模未知 SpaceX的发射成本…

Kotlin语法入门-类与对象(6)

Kotlin语法入门-类与对象(6) 文章目录 Kotlin语法入门-类与对象(6)六、类与对象1、声明和调用2、get和set3、init函数初始化4、constructor构造函数4.1、主构造函数4.2、二级构造函数4.3、多个构造函数4.4、省略主构造函数并写了次构造函数 5、类的继承与重写5.1、继承5.2、继承…

每天五分钟计算机视觉:基于YOLO算法精确分类定位图片中的对象

滑动窗口的卷积的问题 滑动窗口的卷积实现效率很高,但是它依然不能够输出最精准的边界框,比如下面所示: 我们可以看到蓝色框不论在什么位置都不能很好的确定车的位置,有一个算法是YOLO 算法它能够帮助我们解决这个问题。 YOLO 算法 比如我们的输入图像是100*100,我们会…

TCP相关问题总结

文章目录 TCP连接建立过程1. TCP三次握手2. TCP四次挥手3. TCP为什么是三次握手4. TCP为什么是四次挥手 TCP流量控制TCP拥塞控制1. 为什么需要拥塞控制2. 控制手段 TCP连接建立过程中出现丢包 TCP连接建立过程 1. TCP三次握手 首先client端发出连接请求,并且请求同…

在 VSCode 中运行 C#

文章目录 1.为何选择VSCode而不是VS2.操作步骤2.1 安装.NET2.2 安装扩展插件2.2.1 C#2.2.2 Code Runner 3.新建工程HelloCsharp 1.为何选择VSCode而不是VS VS实在是太“重”了,如果只是写一些简单控制台程序进行调试,则完全没必要 2.操作步骤 2.1 安装…

线性代数 --- 矩阵的对角化以及矩阵的n次幂

矩阵的对角化以及矩阵的n次幂 (特征向量与特征值的应用) 前言: 在上一篇文章中,我记录了学习矩阵的特征向量和特征值的学习笔记,所关注的是那些矩阵A作用于向量x后,方向不发生改变的x(仅有尺度的缩放)。线…