AI论文速读 |(Mamba×时空图预测!) STG-Mamba:通过选择性状态空间模型进行时空图学习

(来了来了,虽迟但到,序列建模的新宠儿mamba终于杀入了时空预测!)
论文标题:STG-Mamba: Spatial-Temporal Graph Learning via Selective State Space Model

作者:Lincan Li, Hanchen Wang(王翰宸), Wenjie Zhang(张文杰), Adelle Coster

机构:新南威尔士大学(UNSW)

论文链接:https://arxiv.org/abs/2403.12418

Cool Paper:https://papers.cool/arxiv/2403.12418

TL; DR:本文提出的STG-Mamba是一种新型的时空图学习方法,它通过选择状态空间模型卡尔曼滤波图神经网络,有效提高了STG数据学习的准确性和计算效率。

关键词:时空图预测,选择性状态空间模型(SSSM),卡尔曼滤波

标题和作者
🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀
欢迎大家关注时空探索之旅时空探索之旅QRCode

摘要

时空图(STG)数据具有动态、异构和非平稳的特点,导致时空图学习面临持续的挑战。 在过去的几年里,人们提出了各种基于 GNN 的方法,仅仅专注于模仿 STG 网络的节点个体之间的关系,而忽略了对 STG 系统随时间推移存在的内在特征进行建模的重要性。 相比之下,现代选择性状态空间模型(SSSM)提出了一种将 STG 网络视为一个系统的新方法,并仔细探索 STG 系统跨时间维度的动态状态演化。 在这项工作中,引入时空图 Mamba (STG-Mamba),作为通过将 STG 网络视为一个系统,并采用图选择性状态空间块 (Graph Selective State Space Block, GS3B) 来首次探索SSSM进行 STG 学习的强大能力,以求精确展示 STG 网络的动态演化。 STG-Mamba 被制定为一种编码器-解码器架构,以 GS3B 为基本模块,用于高效的序列数据建模。 此外,为了增强 GNN 在 SSSM 设置下对 STG 数据进行建模的能力,提出了用于自适应图结构升级的卡尔曼滤波图神经网络(Kalman Filtering Graph Neural Networks, KFGN)。 KFGN 平滑地适应选择性状态空间演化的背景,同时保持线性复杂度。 对三个基准 STG 预测数据集进行了广泛的实证研究,证明了 STG-Mamba 的性能优越性和计算效率。 它不仅在STG预测性能方面超越了现有的最先进的方法,而且还有效缓解了大规模图网络在减少FLOP的计算成本和测试推理时间方面的计算瓶颈。

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决的问题是如何有效地进行时空图(Spatial-Temporal Graph, STG)数据的学习。STG数据具有动态、异构和非平稳的特性,这导致了时空图学习持续面临的挑战。以往的基于图神经网络(GNN)的方法主要关注于模仿STG网络中节点个体之间的关系,而忽略了对STG系统随时间变化的内在特征进行建模的重要性。

为了解决这一问题,论文提出了一种新的方法,即时空图曼巴(STG-Mamba),它是首个利用选择性状态空间模型(Selective State Space Models, SSSMs)对STG学习进行探索的工作。STG-Mamba将STG网络视为一个系统,并细致地探索STG系统在时间维度上的动态状态演变。具体来说,STG-Mamba通过引入图选择性状态空间块(Graph Selective State Space Block, GS3B)来精确描述STG网络的动态演变,并且提出了卡尔曼滤波图神经网络(Kalman Filtering Graph Neural Networks, KFGN)来适应图结构的升级。这些方法使得STG-Mamba在保持线性复杂度的同时,能够有效地建模STG数据,并且在三个基准STG预测数据集上的广泛实证研究中展示了其性能优越性和计算效率。

Q: 有哪些相关研究?

A: 这篇论文中提到的相关研究主要集中在时空图(STG)数据的学习领域,包括但不限于以下几个方面的工作:

  1. 基于图神经网络(GNN)的方法
    • STGCN (Yu et al., 2018):利用图神经网络捕捉交通网络中的复杂时空依赖关系。
    • STSGCN (Song et al., 2020):通过同步机制有效处理复杂的局部时空相关性和数据异质性。
    • STG-NCDE (Choi et al., 2022):利用神经控制微分方程(NCDEs)的概念进行时空处理。
    • DDGCRN (Weng et al., 2023):通过分离正常和异常信号并采用新颖的图卷积循环网络方法动态捕捉时空特征。
  2. 基于注意力机制(Transformer)的方法
    • ASTGCN (Guo et al., 2019):结合空间注意力和时间注意力机制与图神经网络的创新方法。
    • ASTGNN (Guo et al., 2021):引入独特的趋势感知自注意力和动态图卷积来处理时间动态性、空间相关性。
    • PDFormer (Jiang et al., 2023):引入了一种定制的Transformer模型,擅长捕捉动态空间依赖性和交通条件传播的时间延迟。
    • STAEformer [CIKM23] (Liu et al., 2023):通过引入时空自适应嵌入组件来增强传统Transformer。
    • MultiSPANS [WSDM24] (Zou et al., 2024):利用多滤波卷积模块、Transformers和结构熵优化来有效建模STG预测中的复杂多范围依赖性。
  3. 选择性状态空间模型(SSSM)
    • Mamba (Gu and Dao, 2023):作为首个深度学习基于SSSM的方法,用于序列任务的数据中心上下文学习。

这些相关研究为STG-Mamba模型的提出提供了理论和技术基础,同时也构成了论文中进行性能比较的基准方法。STG-Mamba通过结合SSSM和GNN的优势,旨在提高STG数据学习的准确性和计算效率。

Q: 论文如何解决这个问题?

STG-Mamba

A: 论文通过提出一种名为STG-Mamba的新模型来解决时空图(STG)数据学习的问题。STG-Mamba模型的核心贡献和解决方案可以概括为以下几点:

  1. 将STG网络视为系统:STG-Mamba采用选择性状态空间模型(SSSM)来处理STG网络,将网络视为一个动态系统,并通过模型其在时间维度上的状态演变。
  2. 引入图选择性状态空间块(GS3B):GS3B是STG-Mamba的基本模块,它通过输入依赖的边构建和动态节点特征选择,来捕捉STG网络中复杂的异构依赖关系,并准确建模STG系统的动态演变。
  3. 提出卡尔曼滤波图神经网络(KFGN):KFGN用于自适应的时空图结构生成和升级,它平滑地适应了基于SSSM的上下文,并确保了图结构与STG系统当前状态的同步更新。
  4. 编码器-解码器架构:STG-Mamba采用编码器-解码器架构,以GS3B作为基本模块,实现高效的序列数据建模。
  5. 计算效率:STG-Mamba通过精心设计的算法,实现了线性时间复杂度O(n),显著降低了与基于Transformer的方法相比的计算开销,包括浮点运算次数(FLOPs)和测试推理时间。
  6. 实证研究:在三个基准STG预测数据集上进行了广泛的实证研究,结果表明STG-Mamba在STG预测性能和计算效率方面均超过了现有的最先进方法。

通过上述方法,STG-Mamba能够有效地处理STG数据的动态、异构和非平稳特性,同时保持了高效的计算性能,为STG学习任务提供了一种新的有前景的解决方案。

GS3算法伪代码

Q: 论文做了哪些实验?

实验数据集

实验结果(12步预测12步)

测试推理时间比较

A: 论文进行了以下几类实验来评估和验证STG-Mamba模型的性能:

  1. 数据集选择:选择了三个真实世界的STG数据集进行实验评估,包括:
    • PeMS04:加利福尼亚道路网络速度记录。
    • HZMetro:杭州城市地铁系统进出记录。
    • KnowAir:中国大陆主要城市的气象站记录。
  2. 基线方法:为了进行公平比较,论文选择了多种基于图神经网络(STGNN)和基于Transformer的方法作为基线,包括STGCN、STSGCN、STG-NCDE、DDGCRN、ASTGCN、ASTGNN、PDFormer、STAEformer和MultiSPANS等。
  3. 实现设置:论文详细描述了模型训练前的数据预处理、模型训练的超参数设置、损失函数和评估指标等。
  4. 结果评估与比较:在三个STG预测任务上,论文比较了STG-Mamba与其他基线方法的性能,使用均方根误差(RMSE)、平均绝对误差(MAE)和平均绝对百分比误差(MAPE)作为性能指标,并将结果汇总在表格中。
  5. 计算效率评估:为了评估计算效率,论文选择了浮点运算次数(FLOPs)和推理时间作为评估指标,并将STG-Mamba与其他基于Transformer的方法进行了比较。
  6. 消融实验:为了探究STG-Mamba中各个模型组件的有效性,论文设计了几种模型变体,并在相同的数据集上评估了它们的预测性能。

通过这些实验,论文全面地展示了STG-Mamba在不同STG预测任务上的性能表现,以及其在计算效率方面相对于其他方法的优势。实验结果证明了STG-Mamba在处理具有动态、异构和非平稳特性的STG数据方面的有效性和高效性。

计算效率比较

不同 STG 节点数设置下,STG-Mamba 和 STAEformer 在 PeMS04/KnowAir 数据集上的 FLOPs 比较

消融实验

Q: 总结一下论文的主要内容

A: 这篇论文的主要内容可以总结如下:

  1. 问题定义:论文针对时空图(STG)数据的动态、异构和非平稳特性,提出了一种新的学习框架,旨在解决STG数据分析中的挑战。
  2. 方法介绍:提出了STG-Mamba模型,这是首个基于选择性状态空间模型(SSSM)的STG学习方法。STG-Mamba采用编码器-解码器架构,并通过图选择性状态空间块(GS3B)和卡尔曼滤波图神经网络(KFGN)来建模STG数据。
  3. 技术创新
    • GS3B:用于STG网络与SSSM的集成,进行输入依赖的边构建和动态节点特征选择。
    • KFGN:用于自适应的时空图结构生成和升级,保持与SSSM上下文的平滑适应性。
  4. 计算效率:STG-Mamba实现了线性时间复杂度,降低了与基于Transformer的方法相比的计算开销,包括FLOPs和测试推理时间。
  5. 实验验证
    • 数据集:使用了三个真实世界的STG数据集进行实验,包括PeMS04、HZMetro和KnowAir。
    • 基线方法:与多种现有的STGNN和Transformer基线方法进行了比较。
    • 结果:STG-Mamba在预测性能和计算效率方面均超过了现有方法。
  6. 消融实验:通过模型变体验证了STG-Mamba中各个组件的有效性,包括KFGN和GS3B。
  7. 结论:STG-Mamba为STG学习领域提供了一种新的有前景的方法,它在保持竞争力的模型性能的同时,显著降低了计算成本。

这篇论文通过引入新的模型架构和算法,为STG数据的有效学习和预测提供了解决方案,并通过实验验证了其优越性。

-Mamba为STG学习领域提供了一种新的有前景的方法,它在保持竞争力的模型性能的同时,显著降低了计算成本。

这篇论文通过引入新的模型架构和算法,为STG数据的有效学习和预测提供了解决方案,并通过实验验证了其优越性。

🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀
欢迎大家关注时空探索之旅时空探索之旅QRCode

相关链接

AI论文速读 | 【Mamba×时空预测】STG-Mamba:通过选择性状态空间模型进行时空图学习

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/474776.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java中的I/O讲解(超容易理解)(中篇)

如果想观看更多Java内容 可上我的个人主页关注我,地址 子逸爱编程-CSDN博客https://blog.csdn.net/a15766649633?spm1000.2115.3001.5343 使用工具 IntelliJ IDEA Community Edition 2023.1.4 使用语言 Java8 代码能力快速提升小方法,看完代码自己…

学几招静态路由配置技巧,让你事半功倍!

中午好,我的网工朋友。 静态路由是在网络设备上手动配置的路由信息,用于指定数据包的传输路径。 无论是项目中交换机的静态路由配置,还是在公司网络中路由器的静态路由设置,都有非常多的应用。 与动态路由协议不同,…

java每日一题——幸运囚犯(合集遍历,查询数据练习)

前言: 合集基本学完了,做做题巩固下知识点。打好基础,daydayup! 题目如下: 目前有100名囚犯,每个囚犯的编号是1-200之间的随机数。现在要求依次随机生成100名囚犯的编号(要求这些囚犯的编号是不能重复的&a…

DCDC电源管理芯片MC34063A,内含温度补偿的参考电压源(1.25V)、比较器、能有效限制电流及控制工作周期的振荡器,驱动器及大电流输出开关管等

MC34063A 为一单片 DC-DC 变换集成电路,内含温度补偿的参考电压源(1.25V)、比较器、能有效限制电流及控制工作周期的振荡器,驱动器及大电流输出开关管等。外配少量元件,就能组成升压、降压及电压反转型 DC-DC 变换器。…

基于net的医院病历管理系统

摘 要 伴随着我国社会的发展,人民生活质量日益提高。互联网逐步进入千家万户,改变传统的管理方式,医院病历管理系统以互联网为基础,利用net技术,和SQL Server数据库开发设计一套医院病历管理系统,提高工作…

C++第九弹---类与对象(六)

✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】【C详解】 日期类 1、日期类的分析和设计 1.1、日期类的功能说明 1.2、日期类的分析和设计 1.2.1、数据结构的分析 1.2.2、文件结构设计 2、日期类的结构分析…

Blender 3D建模要点

3d模型可以为场景的仿真模拟带来真实感,它还有助于更轻松地识别场景中的所有内容。 例如,如果场景中的所有对象都是简单的形状,如立方体和圆形,则很难在仿真中区分对象。 1、碰撞形状与视觉形状 像立方体和球体这样的简单形状&a…

火灾自动报警及消防联动控制系统主机的九个主要组成部分

关于火灾报警联动系统的主机组成,一般有两种不同的概括,下面分别讨论。 一: 火灾报警主机的组成部分较多,主要包括以下消防设备:主电源、联动电源、打印机、驱动器、直接控制板、总线控制板、消防广播、消防电话主机…

免费Web应用防火墙:uuWAF

一款国产的由社区驱动的免费、高性能、高扩展顶级Web应用安全防护产品-南墙。南墙 WEB应用防火墙(简称:uuWAF)是有安科技推出的一款全方位网站防护产品。通过有安科技专有的WEB入侵异常检测等技术,结合有安科技团队多年应用安全的…

多功能、功耗低。工作温度范围宽(-40℃~+80℃),性价比高,并可与MAXIM、AD等公司的uP监控产品兼容的国产芯片——D706

概 述 近年来,微处理器在IT业控制领域和智能化产品中得到了广泛的应用。在系统和产品的开发设计过程中,为了提高其抗干扰能力,使用uP监控是首选技术措施之一。监控芯片可为系统提供上电、掉电复位功能,也可提供其它功能&#x…

【感悟《剑指offer》典型编程题的极练之路】01数组篇!

​​​​​​​ ​​​​​​​ 个人主页:秋风起,再归来~ ​​​​​​​ 文章所属专栏:《剑指offer》典型编程题的极练之路 ​​​​​​​ ​​​​​​​ …

CSS其他属性

文章目录 1. vertical-align1.1. 概念1.2. 常用值1.3. 作用1.4. 出现的情况一1.4.1. 原因1.4.2. 解决方案 1.5. 出现情况二1.5.1. 解决方案一1.5.2. 解决方案二1.5.3. 解决方案三 1.6. 出现情况三1.6.1. 原因1.6.2. 解决方案 2. 溢出效果2.1. 作用2.2. 属性名 3. 隐藏效果3.1. …

买卖股票的最佳时机1,2,3

买卖股票的最佳时机 力扣题目链接 dp[i][0] 表示第i天持有股票所得最多现金 定义二维数组 两列 :0代表持有股票 1代表不持有股票 行代表第几天 dp[i][0] max(dp[i - 1][0], -prices[i]); 第i天持有股票:两种情况 第一种是昨天就已经持有股票了 所…

NVM使用教程

文章目录 ⭐️写在前面的话⭐️1、卸载已经安装的node2、卸载nvm3、安装nvm4、配置路径以及下载源5、使用nvm下载node6、nvm常用命令7、全局安装npm、cnpm8、使用淘宝镜像cnpm9、配置全局的node仓库🚀 先看后赞,养成习惯!🚀&#…

探索AI+电商领域应用与发展

AI火的已经一塌糊涂了,已经有很大一部分的企业和个人已经坐上了这趟超音速列车,但对于电商领域具体都有哪些助理,目前为止还是比较散,今天来顺一下AIGC之与电商到底带来了些什么? 一、什么是AIGC AIGC是内容生产方式…

个人开发者上架App流程

摘要 个人开发者完全可以将自己开发的App上传至应用商店进行上架。本文将介绍上架流程的通用步骤,包括确定App功能和定位、准备相关资料、开发App、提交审核、发布App和宣传推广等内容。 引言 个人开发者在如今的移动应用市场中也有机会将自己的作品推向更广泛的…

C++之模版详解

一.array与vector对比 由图发现&#xff0c;使用array数组是必须提前开好空间&#xff0c;而vector是顺序表&#xff0c;可以实现动态开辟空间 array也支持迭代器&#xff0c;如下&#xff1a; int main() {array<int, 10> arr{ 1,2,3,4,5,6,7,8,9,10 };auto it arr.be…

重生奇迹MU 的全部地图

卓越首饰类&#xff1a;火项链、毒戒指——海1小巴、美人鱼、卡2门口&#xff0c;卡1最里面&#xff0c;地3等等 雷项链&#xff0c;冰戒指——海1蓝翼怪&#xff0c;卡2龙虾以上&#xff0c;失落3&#xff08;门口黄金点哦&#xff0c;盛产冰戒指&#xff09;等等 冰项链——…

第十二届蓝桥杯省赛CC++ 研究生组-货物摆放

还是整数分解问题,注意n本身也是约数 #include <iostream> int main(){printf("2430");return 0; }#include <iostream> #include<cmath> #include<algorithm> using namespace std; typedef long long ll; const ll n 2021041820210418LL…

Jenkins 一个进程存在多个实例问题排查

Jenkins 一个进程存在多个实例问题排查 最近Jenkins升级到2.440.1​版本后&#xff0c;使用tomcat​服务部署&#xff0c;发现每次定时任务总会有3-4个请求到我的机器人上&#xff0c;导致出现奇奇怪怪的问题。 问题发现 机器人运行异常&#xff0c;总有好几个同时请求的服务。…