AI论文速读 | 2024[VLDB]TFB:全面与公正的时间序列预测方法基准测试研究

论文标题:TFB: Towards Comprehensive and Fair Benchmarking of Time Series Forecasting Methods

作者:Xiangfei Qiu ; Jilin Hu(胡吉林) ; Lekui Zhou ; Xingjian Wu ; Junyang Du ; Buang Zhang ; Chenjuan Guo(郭晨娟) ; Aoying Zhou(周傲英) ; Christian S. Jensen ; Zhenli Sheng ; Bin Yang(杨彬)

机构:华东师范大学,华为云,奥尔堡大学(AAU)

关键词:时间序列预测, 基准测试, 领域覆盖, 评估策略, 公平比较, 自动化流程.

链接https://arxiv.org/abs/2403.20150

Cool Paperhttps://papers.cool/arxiv/2403.20150

代码https://github.com/decisionintelligence/TFB

TL; DR:该论文提出了TFB(时间序列预测基准测试),这是一个新颖的自动化基准测试框架,旨在通过包含来自十个不同领域的数据集,并提供一个灵活、可扩展且一致的评估流程,使得对包括统计学习、机器学习和深度学习在内的多种时间序列预测方法进行全面且无偏见的评估成为可能。

这篇应该是ED&B(Experiment, Analysis and Benchmark)Track的论文

🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀
欢迎大家关注时空探索之旅时空探索之旅QRCode

摘要

时间序列在经济、交通、健康和能源等不同领域生成,其中未来值的预测具有许多重要的应用。 毫不奇怪,人们提出了许多预测方法。 为了确保进展,必须能够以全面、可靠的方式对这些方法进行实证研究和比较。 为了实现这一目标,本文提出了 TFB,一种时间序列预测 (TSF) 方法的自动化基准。 TFB 通过解决与数据集、比较方法和评估流程相关的缺点来推进最先进的技术,即:1)数据域覆盖范围不足,2)对传统方法的刻板印象偏见,以及 3)不一致且不灵活的流程。 为了实现更好的领域覆盖,包含来自 10 个不同领域的数据集:交通、电力、能源、环境、自然、经济、股票市场、银行、健康和网络。 还提供时间序列特征,以确保所选数据集的全面性。 为了消除对某些方法的偏见,提供了多种方法,包括统计学习、机器学习和深度学习方法,并且还支持多种评估策略和指标,以确保对不同方法进行更全面的评估。 为了支持将不同方法集成到基准测试中并实现公平比较,TFB 具有灵活且可扩展的流程,可以消除偏差。 接下来,使用 TFB 对 8,068 个单变量时间序列的 21 种单变量时间序列预测 (UTSF) 方法和 25 个数据集的14 种多元时间序列预测 (MTSF) 方法进行全面评估。

不同时间序列特征可视化

  1. 季节性(Seasonality):时间序列在特定时间间隔内重复变化的现象。
  2. 趋势(Trend):时间序列长期变化或模式的总体方向。
  3. 移动(漂移)(Shifting):时间序列的概率分布随时间变化的现象。
  4. 平稳性(Stationarity):时间序列的均值和方差对于所有观测值都是恒定的,协方差仅依赖于观测值之间的距离。
  5. 转换(Transition):时间序列中趋势、周期性或季节性和趋势同时出现的清晰表现。
  6. 相关性(Correlation):多变量时间序列中不同变量可能共享的共同趋势或模式,表明它们受到相似因素的影响或存在某种潜在关系(后文有体现)。

Q: 这篇论文试图解决什么问题?

A: 这篇论文提出了一个名为TFB(Time Series Forecasting Benchmark)的自动化基准测试,旨在全面和公正地评估时间序列预测(TSF)方法。论文试图解决的问题包括:

  1. 数据集覆盖不足:现有的时间序列预测方法评估通常只覆盖有限的领域,无法全面反映方法在不同领域的表现。
  2. 对传统方法的偏见:早期的评估往往忽略了传统方法,如统计学习方法,而只关注基于机器学习和深度学习的方法。
  3. 评估流程不一致和缺乏灵活性:不同的评估基准使用不同的实验设置,如数据划分、归一化方法选择和超参数设置,这使得跨基准的比较变得困难。

为了解决这些问题,TFB提出了以下解决方案:

  • 包含来自10个不同领域的数据集,以提高领域覆盖率。
  • 支持多种评估策略和指标,涵盖统计学习、机器学习和深度学习方法。
  • 提供灵活且可扩展的评估流程,确保在相同设置下对不同方法进行评估,以提高比较的公平性。

总的来说,TFB旨在为时间序列预测方法提供一个全面、可靠和用户友好的评估平台,以促进新方法的发展和现有方法的改进。

VAR,LR的传统方法在特定设置下的特定数据集上也能有很好的结果

Q: 有哪些相关研究?

A: 这篇论文在“相关工作”部分提到了以下几类相关研究:

  1. 时间序列预测方法(Time series forecasting:)

    • 统计学习方法:如ARIMA, ETS, Theta, VAR, 和 Kalman Filter (KF) 。
    • 机器学习方法:如XGBoost, Gradient Boosting Regression Trees (GBRT), Random Forests 和 LightGBM 。
    • 深度学习方法:如TCN , DeepAR , Transformer架构(包括Informer , FEDformer, Autoformer, Triformer, 和 PatchTST)以及基于MLP的模型(如N-HiTS , N-BEATS , NLinear, 和 DLinear )。
  2. 时间序列预测基准(Benchmarks:)

    • Libra, BasicTS, BasicTS+ , Monash, M3, M4, LTSF-Linear, 和 TSlib 。

这些相关研究表明,虽然已经有许多方法和基准用于时间序列预测,但它们在方法多样性、数据集覆盖、以及评估流程的一致性和灵活性方面存在不足。TFB旨在通过提供一个全面的、支持多种方法和评估策略的基准来解决这些问题,从而推动时间序列预测领域的发展。

不同时序基准比较

不同基准涉及的多元时许数据集

TFB和TSlib中多元数据集特征标准化值变化的箱线图

Q: 论文如何解决这个问题?

TFB

A: 为了解决上述提到的问题,论文提出了TFB(Time Series Forecasting Benchmark),一个全面的、自动化的时间序列预测方法评估基准。具体的解决方案包括:

  1. 数据集的全面覆盖
    • 包含来自10个不同领域的数据集,以提高领域覆盖率。
    • 对时间序列数据进行特征化分析,确保所选数据集在不同特征上具有广泛的分布。
  2. 方法多样性和评估策略的扩展
    • 支持包括统计学习、机器学习和深度学习在内的多种时间序列预测方法。
    • 提供多种评估策略和指标,以全面评估不同方法的性能。
  3. 灵活且可扩展的评估流程
    • 设计了一个统一的评估流程,包括数据层、方法层、评估层和报告层。
    • 引入了标准化的数据集处理、划分和归一化步骤。
    • 提供了可定制的配置文件,以便用户根据需要调整评估设置。
  4. 消除偏见和提高评估公平性
    • 通过统一的实验设置和评估策略,确保所有方法在相同的条件下进行评估。
    • 避免了对任何特定类别方法的偏见,如传统方法或最新方法。
  5. 自动化和简化评估过程
    • 提供了一个端到端的自动化评估流程,简化了研究人员对时间序列预测方法的评估过程。
    • 通过GitHub上的代码和数据集的公开,促进了社区的验证和使用。

通过这些解决方案,TFB旨在为时间序列预测研究者提供一个可靠、全面和用户友好的评估平台,从而推动该领域的进一步发展。

单变量数据集统计信息

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(这个图没有完全看懂,就翻译一下)

单变量时间序列,由于时间序列有不同的长度,首先将时间序列表示为由五个特征指标组成的向量:趋势、季节性、平稳性、漂移和转换。为了便于可视化,采用PCA(主成分分析)降维后的密度分析,观察到 TFB 和 M4 覆盖了最多的单元格,而所有其他基准均小于 TFB。 这强调了TFB数据集在特征分布多样性方面的覆盖范围。 此外,与 M4 相比,TFB的数据集涵盖了更广泛的领域。 此外,注意到 M4 的样本量要大得多,总计 100,000 个,而TFB的数据集仅包含 8,068 个时间序列。

多变量数据集统计信息

统计,机器学习和深度学习三种方法分类

不同时间序列预测评估策略(a):固定时间步预测;(b):滚动划窗预测

DropLast

关于“Drop last”的讨论:

“Drop last”是指在时间序列预测的测试阶段中,如果测试数据的最后一个批次(batch)的样本数量少于设定的批次大小(batch size),则通常会选择丢弃这个不完整的批次。这种做法是为了在测试过程中保持数据的一致性和加速计算。

然而,论文指出这种做法可能会导致不公平的比较。因为如果不同的方法在处理最后一个批次时采用不同的策略,比如一些方法丢弃了最后一个批次而另一些方法则没有,这可能会导致评估结果的偏差。

为了解决这个问题,论文提出了一种改进的评估流程,即在测试时不丢弃最后一个批次,而是确保所有方法在相同的策略下进行评估。这可以通过调整批次大小或采用其他方法来实现,以确保所有数据都被公平地考虑在内。

论文中通过实验表明,改变批次大小会影响方法的性能,因此建议在评估时间序列预测方法时,应该采用一致的批次处理策略,避免因“Drop last”操作而导致的潜在偏见。这种设计有助于提高评估的一致性和公平性,从而得到更准确的方法性能比较结果。

Q: 论文做了哪些实验?

评价指标

单变量预测

Ranks表示MSMAPE在该数据集上有多少次取得最佳性能

6个不同领域数据集的MAE雷达图比较

相关性方法比较

通道独立(CI) VS 通道依赖(CD)

渠道独立性与渠道依赖性。 在多元数据集中,变量有时被称为通道。 为了研究多变量时间序列中通道依赖性的影响,在十个数据集上比较 PatchTST(CI方法) 和 Crossformer(CD方法),依赖性从弱到强。。观察到,随着数据集中相关性的增加,Crossformer 的性能逐渐超过 PatchTST,这表明当相关性很强时最好考虑通道依赖性。但是, 当变量之间相关性不明显时,不考虑通道依赖性的PatchTST更好。

因此深入探索通道依赖性,在设计新方法和改良现有方法是值得思考的问题。

比如之前介绍过的CCM:

多元预测1

image-20240416145611303

参数量和推理时间比较

A: 论文中进行了以下实验来评估和验证TFB基准测试的有效性和实用性:

  1. 实验设置
    • 使用了TFB中包含的25个多变量数据集和8,068个单变量时间序列数据集。
    • 包含了22种不同的时间序列预测方法,涵盖统计学习、机器学习和深度学习三大类。
    • 对每种方法进行了全面的超参数选择,以确保其性能接近或超过原始论文中报告的结果。
  2. 单变量时间序列预测
    • 对14种单变量时间序列预测方法在8,068个单变量时间序列上进行了评估。
    • 使用了MASE(Mean Absolute Scaled Error)和MSMAPE(Mean Symmetric Absolute Percentage Error)等指标来衡量预测性能。
    • 分析了不同方法在具有不同特征(如季节性、趋势、平稳性等)的时间序列上的表现。
  3. 多变量时间序列预测
    • 对14种多变量时间序列预测方法在25个数据集上进行了评估。
    • 采用了MAE(Mean Absolute Error)和MSE(Mean Squared Error)等指标,并针对不同的预测范围进行了测试。
    • 比较了不同方法在数据集上的表现,并探讨了它们在处理多变量时间序列时的优缺点。
  4. 方法性能分析
    • 根据实验结果,总结了不同方法在各种数据特征上的表现和排名。
    • 讨论了基于Transformer的方法、线性方法以及考虑通道依赖性的方法在不同场景下的性能差异。
    • 提供了关于如何选择适合特定数据集和场景的预测方法的见解。
  5. 基准测试的可用性和灵活性
    • 展示了TFB如何简化时间序列预测方法的评估过程,并提供了可复现的实验设置。
    • 通过公开代码和数据集,允许社区成员验证实验结果并基于TFB进行进一步的研究。

这些实验不仅验证了TFB作为一个全面和公正的评估工具的有效性,而且为时间序列预测领域的研究人员提供了有价值的见解和建议。通过这些实验,研究人员可以更好地理解和比较不同方法的性能,从而为特定应用场景选择或设计最合适的预测模型。

3类方法(CNN,线性,transformer)在6个时序属性(季节性,趋势性,平稳性,转换,漂移,相关性)上的表现

上述两张图,从左到右,所示数据集的时序属性(季节性,趋势性,平稳性,转换,漂移,相关性)逐步增强。

Q: 总结一下论文的主要内容

A: 这篇论文的主要内容可以总结如下:

  1. 问题陈述:论文识别了现有时间序列预测(TSF)方法评估基准在数据集覆盖、方法多样性和评估流程一致性及灵活性方面存在的不足。
  2. TFB基准:为了解决上述问题,论文提出了TFB,一个自动化的、全面的和可扩展的时间序列预测方法评估基准。
  3. 数据集:TFB包含来自10个不同领域的数据集,以确保对各种时间序列特征的全面覆盖,并提供时间序列特征分析以确保数据集的多样性。
  4. 方法多样性:TFB支持多种时间序列预测方法,包括统计学习、机器学习和深度学习方法,并提供多种评估策略和指标。
  5. 评估流程:TFB设计了一个灵活的评估流程,包括数据层、方法层、评估层和报告层,以确保不同方法可以在公平和一致的环境中进行比较。
  6. 实验:论文使用TFB对多种单变量和多变量时间序列预测方法进行了全面评估,并提供了实验结果和分析。
  7. 发现:通过实验,论文得出了一些关键发现,包括传统统计方法在某些数据集上的表现优于最新方法,以及不同方法在处理具有不同特征的数据集时的优缺点。
  8. 贡献:TFB作为一个评估工具,为研究人员提供了一个可靠和用户友好的平台,以设计和评估新的TSF方法,并促进了该领域的进步。
  9. 代码和数据:为了促进研究的透明度和可复现性,论文提供了TFB的代码和数据集的公开访问链接。

*:通过实验,论文得出了一些关键发现,包括传统统计方法在某些数据集上的表现优于最新方法,以及不同方法在处理具有不同特征的数据集时的优缺点。
8. 贡献:TFB作为一个评估工具,为研究人员提供了一个可靠和用户友好的平台,以设计和评估新的TSF方法,并促进了该领域的进步。
9. 代码和数据:为了促进研究的透明度和可复现性,论文提供了TFB的代码和数据集的公开访问链接。

总体而言,TFB基准旨在提供一个综合性的评估框架,以推动时间序列预测领域的研究和实践。

🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀
欢迎大家关注时空探索之旅时空探索之旅QRCode

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/554409.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

mybatisPlus数据字段填充

这里用到的时实体类User import com.baomidou.mybatisplus.annotation.FieldFill; import com.baomidou.mybatisplus.annotation.TableField; import com.baomidou.mybatisplus.annotation.TableLogic; import com.baomidou.mybatisplus.annotation.TableName; import lombok.…

如何在ubuntu上使用clash

下载CLASH软件 修改配置文件 解压之后,将.env文件中的URL改为自己订阅的URL,然后再执行start.sh脚本 最后按照提示,将clash.sh添加到环境变量 如何修改端口 在start.sh中更改 祝大家在ubuntu上玩得开心

多高的学历才能轻松找到工作?这个热点有点扯吧~

先来唠唠 昨天刷脉脉的时候,热榜第一的内容吸引了我:多高的学历才能轻松找到工作? 现在这行情,不管多高得学历都很难说能轻松找到工作吧~ 评论区也有不少小伙伴发表自己的见解,比如: 学历固然是非常重要…

C++ 小项目 - 通讯录管理系统

C 小项目系列教程: 通讯录管理系统 ➡️➡️➡️本教程参考自 黑马程序员 C 视频课程 其中的 Markdown 文档,仅用于自己学习,源码发布在 Contact-Management。 文章目录 1. 系统需求2. 创建项目3. 菜单4. 主要功能4.1 添加联系人4.2 显示联系…

关于主干布线,你应该知道什么

所有大型建筑都需要复杂的通信网络才能有效运行。这需要多个不同的通信室和电缆将这些房间连接在一起。在这里,骨干布线是任何建筑物通信系统的重要组成部分,可以发挥作用。 那么,什么是骨干布线?它是做什么用的?它究…

Monaco Editor系列(四)版本对比、自定义右键菜单、光标滚动

前言:亲爱的小伙伴们,又见面了!上一篇文章我们一起学习了 Monaco Editor 的几个功能,设置内容、多文件编辑、自定义主题;下面让我们继续Monaco Editor的旅程吧! 前情提要: 上一篇文章我介绍了M…

Facebook隐私保护:用户数据安全的关键挑战

在数字化时代,数据已成为最宝贵的资源之一。社交媒体平台如Facebook为用户提供了便捷的交流和信息分享工具,但同时也面临着如何保护用户数据安全和隐私的挑战。本文将深入探讨Facebook在数据安全方面面临的关键挑战,以及其如何应对这些挑战&a…

部署Zabbix5.0

一.部署zabbix客户端 端口号10050 zabbix 5.0 版本采用 golang 语言开发的新版本客户端 agent2 。 zabbix 服务端 zabbix_server 默认使用 10051 端口,客户端 zabbix_agent2 默认使用 10050 端口。 1.1.关闭防火墙和selinux安全模块 systemctl disable --now fir…

python中的列表、元组、字典、集合(集合篇)

数据类型定义符号访问元素是否可变是否重复是否有序列表 [ ]索引可变可重复有序元组()索引不可变可重复有序字典{key:value}键可变可重复无序集合{ }可变不可重复无序 基本概念 python语言中的集合是无序的、可变的容器类对象,所…

【Web】HTML基础

专栏文章索引:Web 有问题可私聊:QQ:3375119339 目录 一、HTML介绍 1.HTML 定义 2.标签语法 3.HTML 基本骨架 4.标签的关系 5.HTML 注释 二、标签 1.排版标签 1.1 标题标签 1.2 段落标签 1.3 换行标签 1.4 水平线标签 1.5 文本格…

Python学习(四)

文件操作 想想我们平常对文件的基本操作,大概可以分为三个步骤(简称文件操作三步走): ① 打开文件 ② 读写文件 ③ 关闭文件 注意:可以只打开和关闭文件,不进行任何读写 在Python,使用open函数,可以打开一个已经存在的文件&…

4.16作业

1.总结keil5下载代码和编译代码需要注意的事项 一、在编译代码时需要先点击魔术棒点击 修改flash Downlond 和pack 二、可以通过F12转跳到对应的函数中,查看函数的原型 三、注释出现乱码通过 Edit中的中的来修改 四、要先bulid在load 2.总结STM32Cubemx的使用方…

【UE 材质】表面湿润效果

效果 步骤 1. 创建一个材质函数,这里命名为“MF_Weather_Wetness”,打开材质函数添加如下节点 其中输入的默认值分别为: 其中,“Desaturation”节点用于控制饱和度,我们通过给“Fraction”引脚输入一个负值来增加饱和…

【AR开发示例】实现AR管线巡检

写在前面的话 这是一篇旧文档,代码仓库见 https://gitee.com/tanyunxiu/AR-pipe 本文档是基于超图移动端SDK的AR模块开发的示例,仅供参考,SDK在持续迭代中,相关描述可能有变化。 示例介绍 这是一个使用AR查看墙内管线的基础示…

授权协议OAuth 2.0之除了授权码许可还有什么授权流程?

写在前面 源码 。 本文看下OAuth2.0的另外3中授权流程,资源拥有者凭据许可,客户端许可,隐式许可。分别看下具体的使用流程以及该使用场景。 1:资源拥有者凭据许可 资源拥有者凭据许可,这里资源拥有者的凭据是什么呢&…

【C++核心】面向对象的三大特性

面向对象的三大特性 一、封装性1. 封装性的意义1.1 表现事物1.2 权限控制1.3 成员属性设置为私有 2. 封装性的衍生知识2.1 struct和class区别2.2 友元2.2.1 全局函数做友元2.2.2 类做友元2.2.3 成员函数做友元 二、继承性1. 继承的语法2. 继承方式3. 继承中的对象模型3.1 说明3…

17 如何查看Hadoop中wordCount源码

1.进入官网下载源码并进行解压操作: 我们使用的是hadoop-3.1.4版本,直接进入官网进行下载:https://archive.apache.org/dist/hadoop/common/hadoop-3.1.4/ 下载得到的文件如下图所示: 解压后的文件: 2.使用Idea打开此项…

vue3.0项目生成标签条形码(插件:jsbarcode)并打印(插件:Print.js)支持pda扫码枪扫描

文章目录 功能场景生成条形码设置打印功能踩坑 功能场景 功能场景:供应链中对一些货品根据赋码规则进行赋码,赋码之后生成根据赋码结果生成条形码,执行打印功能,贴在货品之上,打印之后可以用pda的手枪进行扫描&#x…

(亲测有效)win7安装nodejs高版本(18.8.0)

现在学习vue3,vite,使用pnpm创建项目都需要高版本的nodejs了,win7最高只能安装13版本,好多已经不支持了。当然此篇只是以安装18.8.0为例,可以替换成更高的18或者20版本,只是太高的话可能出现冲突,够用就好。希望对各位…

如何修改WordPress数据库表前缀以提高安全性

WordPress作为世界上最受欢迎的内容管理系统之一,吸引了数以百万计的用户。然而,正因为其广泛的使用,WordPress网站也成为了黑客攻击的目标之一。其中一个最常见的安全漏洞是使用默认的数据库表前缀wp_,使得黑客能够更轻松地进行大…