AI论文速读 | UniST:提示赋能通用模型用于城市时空预测

本文是时空领域的统一模型——UniST,无独有偶,时序有个统一模型新工作——UniTS,感兴趣的读者也可以阅读今天发布的另外一条。

论文标题:UniST: A Prompt-Empowered Universal Model for Urban Spatio-Temporal Prediction

作者:Yuan Yuan(苑苑), Jingtao Ding(丁璟韬), Jie Feng(冯杰), Depeng Jin(金德鹏), Yong Li(李勇)

机构:清华大学

论文链接:https://arxiv.org/abs/2402.11838

Cool Paper:https://papers.cool/arxiv/2402.11838

TL,; DR:本文提出了UniST,一个基于提示的通用模型,通过灵活处理多样化时空数据、有效的生成预训练和时空知识引导的提示,实现了在多个城市和领域中的卓越泛化能力和城市时空预测性能。

关键词:时空预测,通用模型,预训练,提示微调,零样本学习,小样本学习
🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀
欢迎大家关注时空探索之旅时空探索之旅QRCode

标题和作者

摘要

城市时空预测对于交通管理、资源优化和城市规划等明智决策至关重要。 尽管预训练基础模型在自然语言已经取得了显着的突破,其中通用模型可以处理跨不同领域的多项任务,但城市时空建模仍然落后。 现有的城市预测方法通常是针对特定的时空场景量身定制的,需要特定于任务的模型设计和广泛的域内训练数据。 在这项工作中,提出了一种用于城市时空预测的通用模型 UniST。 从大语言模型中汲取灵感,UniST 通过以下方式取得成功:(i) 针对不同时空数据特征的灵活性,(ii) 通过精心设计的掩码(mask)策略进行有效的生成预训练,以捕获复杂的时空关系,(iii) 时空关系知识引导的提示,可以跨场景对齐和利用内在的和共享的知识。 这些设计共同释放了具有强大泛化能力的时空预测的全能(one-for-all)模型的潜力。 在 15 个城市和 6 个领域进行的广泛实验证明了 UniST 在提升最先进的预测性能方面的普遍性,特别是在小样本和零样本场景中。

从传统的单独深度模型到城市时空预测的全能通用模型。

Q: 这篇论文试图解决什么问题?

A: 这篇论文提出了一个名为UniST的通用模型,旨在解决城市时空预测的问题。城市时空预测对于诸如交通管理、资源优化和城市规划等知情决策至关重要。尽管自然语言的预训练基础模型在处理多种任务方面取得了显著突破,但城市时空建模领域尚未经历类似的进步。现有的城市预测方法通常针对特定的时空场景定制,需要特定任务的模型设计和大量的领域内训练数据。UniST模型通过以下几个方面来解决这些问题:

  1. 灵活性:UniST能够适应多样化的时空数据特征。
  2. 有效的生成预训练:通过精心设计的掩码策略来捕捉复杂的时空关系。
  3. 时空知识引导的提示(Spatio-Temporal Knowledge-Guided Prompts):通过这些提示在不同场景之间对齐和利用内在的共享知识。

这些设计共同解锁了一个适用于所有场景的通用模型的潜力,该模型具有强大的泛化能力。通过在15个城市和6个领域的广泛实验,论文展示了UniST在推进最先进的预测性能方面的普遍性,特别是在小样本(few-shot)和零样本(zero-shot)场景中。

Q: 有哪些相关研究?

A: 这篇论文中提到的相关研究主要集中在以下几个方面:

  1. 城市时空预测(Urban Spatio-Temporal Prediction):
    • 利用深度学习技术进行城市活动动态模式的建模和预测,包括CNN、RNN、ResNet、GNN、Transformer、MLP和扩散模型等架构。
  2. 基础模型(Foundation Models):
    • 探索自然语言处理(NLP)和计算机视觉(CV)领域的基础模型在城市场景中的应用,如TransGPT、CityGPT、TrafficGPT等,它们在处理基于语言的时空任务方面表现出色。
  3. 提示微调技术(Prompt Tuning Techniques):
    • 在NLP和CV领域中,提示技术已被证明能够增强预训练模型在特定任务或领域的泛化能力。这项研究与提示微调相一致,其中时空提示根据时空属性通过提示网络自适应生成。
  4. 时空数据和时间序列:
    • 研究了基础模型在时间序列建模中的应用,尽管时间序列通常具有简单的1D结构,但时空数据在空间和时间维度上呈现更复杂的性质。
  5. 迁移学习和元学习(Transfer Learning and Meta-Learning):
    • 一些研究探索了在城市之间进行转移学习的方法,但这些方法通常仍需要目标城市中的一定量的训练样本。
  6. 模型泛化(Model Generalization):
    • 论文中提出的UniST模型旨在实现跨不同城市和领域的训练和预测,提供通用解决方案,这与现有解决方案相比是一个重大突破。

这些相关研究为UniST模型的提出提供了背景和基础,UniST模型通过结合这些领域的最新进展,旨在提高城市时空预测的准确性和泛化能力。

Q: 论文如何解决这个问题?

UniST

包含两部分:

  1. 大规模时空预训练
  2. 时空知识引导的提示微调

提示生成过程

A: 论文通过提出UniST模型来解决城市时空预测的问题,具体方法如下:

  1. 数据收集与处理
    • 收集来自多个城市和领域的丰富时空数据,以确保模型能够从多样化的数据中学习。
    • 使用时空标记器(Spatio-Temporal Tokenizers)将不同形状的数据转换为统一的序列格式,以便利用Transformer架构。
  2. 模型架构设计
    • 采用基于Transformer的编码器-解码器架构作为基础模型。
    • 引入时空自监督预训练(Spatio-temporal Self-supervised Pretraining),通过不同的掩码策略来增强模型捕捉时空关系的能力。
  3. 预训练策略
    • 采用掩码token建模(Masked Token Modeling)作为预训练策略,使用不同的掩码策略来捕捉多级别的时空关系。
    • 包括随机掩码、管道掩码(Tube masking)、块掩码(Block masking)和时间掩码(Temporal Masking)。
  4. 时空知识引导的提示微调
    • 引入一个提示网络(Prompt Network),该网络根据时空域知识生成有用的提示。
    • 定义了空间记忆池和时间记忆池,用于存储有关时空域知识的有价值信息。
    • 通过优化这些记忆池,模型能够自适应地选择对预测最有用的信息。
  5. 实验验证
    • 在15个城市和6个领域的数据集上进行了广泛的实验,验证了UniST模型在多种预测任务上的性能。
    • 特别是在小样本和零样本场景下,UniST展示了其优越的可转移性。

通过这些方法,UniST模型能够在不同的城市和领域中实现强大的泛化能力,即使在只有有限或没有训练数据的情况下也能进行有效的预测。这标志着从传统的独立方法向预训练基础模型转变的一个重要步骤。

时空预训练&提示微调伪代码

Q: 论文做了哪些实验?

短期预测

短时预测:预测6步(参考Time-LLM和PatchTST)

长期预测

长时预测:预测64步(参考Time-LLM和PatchTST)

小样本和零样本性能

1%和5%的小样本,零样本类似于迁移

A: 论文中进行了一系列实验来验证UniST模型的性能和通用性,具体包括:

  1. 短期预测(Short-Term Prediction):
    • 在多个时空数据集上评估UniST模型的短期预测性能。
    • 将UniST与其他先进的时空预测模型进行比较,包括基于启发式的方法(如历史平均HA和ARIMA)、深度城市预测方法(如STResNet、ACFM等)、视频预测方法(如PredRNN、MAU等)和多变量时间序列预测方法(如PatchTST、iTransformer等)。
  2. 长期预测(Long-Term Prediction):
    • 扩展输入步长和预测范围,以评估模型在捕捉长期依赖性方面的能力。
    • 同样与其他模型进行比较,以展示UniST在长期预测任务上的性能。
  3. 小样本预测(Few-Shot Prediction):
    • 在训练过程中,仅使用1%、5%和10%的训练数据,以测试模型在小样本情况下的泛化能力。
    • 与具有相对较好性能的基线模型进行比较,以及与元学习基线(如MAML和MetaST)和预训练微调方法(如PatchTST)进行比较。
  4. 零样本预测(Zero-Shot Prediction):
    • 在未见过的数据集上评估UniST模型,以测试其在没有目标城市训练数据的情况下的适应能力。
    • 与小样本预测设置下的基线模型进行比较,以展示UniST的零样本学习能力。
  5. 消融研究(Ablation Study):
    • 研究了UniST模型中不同组件的影响,特别是空间和时间提示对最终性能的贡献。
    • 通过移除提示中的特定时空属性(如空间接近性、空间层次性、时间周期性和时间接近性)来评估每个属性的重要性。
  6. 提示学习器分析(Prompt Learner Analysis):
    • 对提示学习器进行深入分析,包括使用t-SNE可视化空间和时间记忆池中的嵌入,以及分析记忆池中嵌入的模式。
  7. 可扩展性分析(Scalability Analysis):
    • 分析模型参数大小对训练损失和预测性能的影响,以评估UniST模型的可扩展性。

这些实验结果表明,UniST在多种预测任务中均取得了先进的性能,特别是在小样本和零样本场景下,证明了其作为一种通用模型的有效性和适用性。

Q: 有什么可以进一步探索的点?

A: 论文提出的UniST模型虽然在城市时空预测方面取得了显著的成果,但仍有一些方向可以进行进一步的探索:

  1. 多样化的时空数据格式
    • 目前UniST主要依赖于基于网格的空间划分。未来的研究可以探索如何整合不同类型的时空数据,例如基于序列的数据、基于图的数据以及其他非结构化数据。
  2. 更复杂的时空关系建模
    • 尽管UniST通过不同的掩码策略捕捉了多尺度的时空关系,但仍有可能通过更先进的图网络、注意力机制或其他创新的神经网络架构来进一步提升模型的时空建模能力。
  3. 跨领域和跨城市的泛化能力
    • 尽管UniST在多个城市和领域展示了良好的泛化能力,但进一步研究如何提高模型在面对更大范围、更多种类的城市数据时的泛化性和适应性仍然是一个有趣的方向。
  4. 实时预测和动态更新
    • 研究如何将UniST应用于实时预测场景,并探索如何有效地对模型进行动态更新,以适应城市动态变化的环境。
  5. 解释性和可解释性
    • 提高模型的解释性,使决策者能够理解模型的预测结果背后的原理,这对于实际应用中的模型部署至关重要。
  6. 模型效率和优化
    • 探索如何减少模型的计算成本和提高运行效率,使其能够在资源受限的环境中使用,例如移动设备或边缘计算设备。
  7. 多任务学习和持续学习
    • 研究UniST在多任务学习设置下的性能,以及如何通过持续学习来适应新的数据分布和预测任务。
  8. 模型鲁棒性和健壮性
    • 研究模型在面对数据噪声、缺失数据和异常值时的鲁棒性,并探索提高模型健壮性的方法。
  9. 实际部署和应用
    • 将UniST应用于实际的城市管理系统,评估其在真实世界中的性能,并探索与现有城市基础设施的集成方法。

这些方向不仅有助于推动城市时空预测领域的研究进展,还可能为城市规划、交通管理和资源优化等实际应用带来新的解决方案。

Q: 总结一下论文的主要内容

A: 这篇论文的主要内容可以总结如下:

  1. 问题定义:论文针对城市时空预测问题,提出了一种通用模型UniST,旨在解决现有方法在泛化能力和适应性方面的不足。
  2. 模型设计:UniST模型采用了基于Transformer的编码器-解码器架构,并通过时空标记器(Spatio-Temporal Tokenizers)处理多维时空数据。模型包括两个阶段:大规模时空预训练和时空知识引导的提示微调。
  3. 预训练策略:UniST使用多种掩码策略进行自监督预训练,以捕捉复杂的时空关系,包括随机掩码、管道掩码、块掩码和时间掩码。
  4. 提示微调:引入了一种创新的提示机制,利用时空知识引导提示的生成,以适应不同的时空数据分布和预测任务。
  5. 实验验证:在多个城市和领域的15个数据集上进行了广泛的实验,包括短期和长期预测、小样本和零样本预测,证明了UniST在各种预测任务上的优越性能。
  6. 消融研究和分析:通过消融研究评估了模型中不同组件的贡献,并深入分析了提示学习器的行为和模型的可扩展性。
  7. 未来方向:论文讨论了模型的局限性和未来可能的研究方向,包括整合多种时空数据格式、提高模型的解释性、鲁棒性和实际应用部署。

总体而言,UniST模型通过结合大型语言模型的关键特性,提出了一种新的范式,用于城市时空预测,展示了在多个城市和领域中的强大泛化能力和适应性。

完整实验结果

数据集相关信息

数据集信息

数据集统计信息

短程预测完整实验结果

短程预测1

短程预测2

两张表对应不同城市数据集

长程预测,少样本与零样本

长程预测

Crowded数据集的少样本和零样本(仅UniST)

BikeNYC数据集少样本和零样本(仅UniST)

TaxiBJ数据集少样本和零样本(仅UniST)

🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀
欢迎大家关注时空探索之旅时空探索之旅QRCode

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/469245.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

大势智慧与云世纪签署战略合作,实景三维赋能低空经济,泛测绘助力城市数据更新更高效

2024年《政府工作报告》提出“要大力推进现代化产业体系建设,加快发展新质生产力”、“积极打造商业航天、低空经济等新增长引擎”。 近日,武汉大势智慧科技有限公司(以下简称“大势智慧”)和青岛云世纪信息科技有限公司&#xf…

android 顺滑滑动嵌套布局

1. 背景 最近项目中用到了上面的布局,于是使用了scrollviewrecycleview,为了自适应高度,重写了recycleview,实现了高度自适应: public class CustomRecyclerView extends RecyclerView {public CustomRecyclerView(Non…

麒麟信安出品 | 无惧停服挑战!看C2K平台如何轻松拿捏CentOS迁移

2020年Redhat公司面向全球公布,于2021年底停止维护开源服务器操作系统CentOS 8,并将于2024年6月30日停止维护CentOS 7,届时CentOS全系列版本将停止维护。 在CentOS系统逐步停服的背景下,麒麟信安为满足各行各业现存的大量CentOS系…

基于树莓派实现 --- 智能家居

最效果展示 演示视频链接:基于树莓派实现的智能家居_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1Tr421n7BM/?spm_id_from333.999.0.0 (PS:房屋模型的搭建是靠纸板箱和淘宝买的家居模型,户型参考了留学时短租的公寓~&a…

el-tree 设置默认展开指定层级

el-tree默认关闭所有选项&#xff0c;但是有添加或者编辑删除的情况下&#xff0c;需要刷新接口&#xff0c;此时会又要关闭所有选项&#xff1b; 需求&#xff1a;在编辑时、添加、删除 需要将该内容默认展开 <el-tree :default-expanded-keys"expandedkeys":da…

【C语言】常见的字符串处理函数

目录 1、strlen&#xff08;&#xff09;函数 2、strcpy&#xff08;&#xff09;、strncpy&#xff08;&#xff09;函数 3、strstr&#xff08;&#xff09; 函数 4、strcmp&#xff08;&#xff09;、strncmp&#xff08;&#xff09;函数 5、strcat&#xff08;&#…

[数据结构]堆

一、堆是什么&#xff1f; 堆是一种完全二叉树 完全二叉树的定义&#xff1a;完全二叉树的形式是指除了最后一层之外&#xff0c;其他所有层的结点都是满的&#xff0c;而最后一层的所有结点都靠左边。​​​​​​&#xff0c;从左到右连续。 教材上定义如下: 若设二叉树的…

AI检测识别技术,为智能化视频生产赋能

在科技飞速发展的今天&#xff0c;智能化生产已经成为企业提高效率、降低成本、增强竞争力的关键所在。美摄科技&#xff0c;作为一家在音视频处理技术领域保持领先的创新型企业&#xff0c;不仅致力于提供卓越的音视频处理技术&#xff0c;更在AI检测识别领域积累了深厚的实力…

机器视觉相关硬件

机器视觉相关硬件 完整的图像采集系统一般包括相机、镜头、图像采集卡、光源等。硬件的选型将关系到图像的质量和传输的速率&#xff0c;也会间接影响视觉软件算法的工作效率。硬件和软件需要配合得当&#xff0c;彼此互补。本文将介绍机器视觉的4个主要硬件的选型。 一、相机…

【日常记录】【插件】使用ColorThief,跟随图片变化改变网页背景

文章目录 1、效果图2、ColorThief3、实现4、参考链接 1、效果图 想要实现,界面的背景颜色,跟随图片的 颜色来进行展示, 2、ColorThief 要想实现跟随图片变化实现网页背景渐变效果&#xff0c;则需要获取图片的主要颜色&#xff0c;可以使用ColorThief库来获取图片的颜色 需要注…

你真的会做抖音小店吗?你做抖店的方法是正确的吗?教学分享

大家好&#xff0c;我是电商花花。 新的一年&#xff0c;不少做抖店的商家都会产生一个疑问&#xff0c;2024年抖音小店无货源还能继续做吗&#xff1f; 做无货源模式还会被处罚吗&#xff1f; 先说答案&#xff0c;2024年抖音小店无货源能做&#xff0c;不仅能做且仍然是抖音…

Java学习笔记(14)

常用API Java已经写好的各种功能的java类 Math Final修饰&#xff0c;不能被继承 因为是静态static的&#xff0c;所以使用方法不用创建对象&#xff0c;使用里面的方法直接 math.方法名 就行 常用方法 Abs,ceil,floor,round,max,minm,pow,sqrt,cbrt,random Abs要注意参数的…

电商评论数据聚类实验报告

目录 实验目的整体思路数据介绍代码与实验步骤 4.1 爬虫代码 4.2 数据清洗 4.3 分词 4.4 去停用词 4.5 计算TF-IDF词频与聚类算法应用 4.6 生成词云图实验结果 5.1 词云图 5.2 聚类结果分析不足与反思参考资料 1. 实验目的 掌握无监督学习问题的一般解决思路和具体解决办法&…

讯鹏智能边缘计算网关主机,支持MQTT协议主动上传上位机软件平台

随着科技的不断发展&#xff0c;智能化设备在我们的生活中扮演着越来越重要的角色。而智能边缘计算网关作为连接智能设备与互联网的重要纽带&#xff0c;其远程运维功能为管理者带来了极大的便利。特别是像OkEdge边缘计算网关这样的产品&#xff0c;不仅可以替代传统的Windows系…

Unity中使用AVPro Video播放视频的完全指南

Unity AVPro是一款强大的视频播放解决方案&#xff0c;它支持多种视频格式和编解码器&#xff0c;能够在Unity中实现高质量的视频播放。本教程将指导你如何在Unity项目中使用AVPro播放视频。 目录如下 1、安装AVPro Video2、在UI上显示视频3、在3D物体上显示视频&#xff0c;…

JWT(跨域身份验证解决方案)

Json web token (JWT), 跨域身份验证解决方案,特别适用于分布式站点的单点登录(SSO)场景。JWT的声明一般被用来在身份提供者和服务提供者间传递被认证的用户身份信息,以便于从资源服务器获取资源,也可以增加一些额外的其它业务逻辑所必须的声明信息,该token也可直接被用于…

jQuery 常用API

一、jQuery 选择器 1.1 jQuery 基础选择器 原生 JS 获取元素方式很多&#xff0c;很杂&#xff0c;而且兼容性情况不一致&#xff0c;因此 jQuery 给我们做了封装&#xff0c;使获取元素统一标准。 1.2 jQuery 层级选择器 jQuery 设置样式 1.3 隐式迭代&#xff08;重要&…

算法打卡day21|回溯法篇01|理论知识,Leetcode 77.组合

回溯法理论知识 回溯法也可以叫做回溯搜索法&#xff0c;它是一种搜索的方式。回溯是递归的副产品&#xff0c;只要有递归就会有回溯。所以回溯函数也就是递归函数&#xff0c;指的都是一个函数。 回溯法的效率 回溯法并不是什么高效的算法。因为回溯的本质是穷举&#xff0c;…

打靶记录(个人学习笔记)

一、信息收集 1、主机发现 通过nmap对此网段进行扫描&#xff0c;可以确定靶机ip为192.168.189.144 2、端口扫描 确定了靶机ip之后&#xff0c;我们来扫描端口 发现80端口开放&#xff0c;先访问80端口 用插件识别出一些信息 Wappalyzer插件获得信息&#xff1a;Web服务&am…

jquery 列表框可以手动修改(调用接口修改)

类似于这种 直接上代码 列表框 <td>//目的主要是获取属性名的(要更改的属性名) 在下面juqery的这一行(var field $(thisobj).prev(input).attr(name);)有体现<input type"hidden" name"voyage" value"${M_PSI_PERIOD_INFO.port}">…