2024最新时间序列预测Benchmark TFB

今天给大家介绍一篇VLDB 2024中时间序列预测Benchmark的工作，文章由华东师范大学，华为云，奥尔堡大学联合发布。该论文提出了TFB（时间序列预测基准测试），这是一个新颖的自动化基准测试框架，旨在通过包含来自十个不同领域的数据集，并提供一个灵活、可扩展且一致的评估流程，对包括统计学习、机器学习和深度学习在内的多种时间序列预测方法进行全面且无偏见的评估。

该论文呼吁testing不使用drop-last操作，这一影响多个时序Baselines性能的代码bug！

论文标题：TFB: Towards Comprehensive and Fair Benchmarking of Time Series Forecasting Methods**

论文链接：

代码链接：

1、引言

这篇论文试图解决的问题包括：

问题1. 数据领域覆盖不足：现有的时间序列预测方法评估通常只覆盖有限的领域，无法全面反映方法在多样数据集下的表现。

问题2. 对传统方法的刻板影响：现有的评估往往忽略了传统方法，如统计学习，机器学习方法，大部分只关注深度学习方法。

问题3. 缺乏一致和灵活的流程。不同的评估基准使用不同的实验设置，如数据划分、归一化方法选择、超参数设置，drop-last操作的使用，这使得公平的比较变得困难。此外，大多数测试基准流程不灵活，无法支持统计学习、机器学习和深度学习方法的同时评估。

2、drop-last操作说明

现有的一些方法在测试阶段使用“删除最后一个批次的数据”的技巧。为了加速测试，通常将数据分成批次。然而，如果我们丢弃最后一个不完整批次：其中包含的样本数量少于批次大小，这会导致不公平的比较。例如，在图4中，ETTh2具有长度为2,880的测试序列长度，我们使用大小为512的回溯窗口预测336个未来时间步。如果我们选择批次大小为32、64和128，那么最后一个批次中的样本数量分别为17、49和113。除非所有方法都使用相同的批次大小，否则丢弃这些最后一个批次的测试样本是不公平的，因为测试集的实际使用长度不一致。图4显示了在ETTh2上使用不同批次大小和“删除最后一个批次”技巧的PatchTST、DLinear和FEDformer的测试结果。我们观察到，在变化批次大小时，方法的性能会发生变化。

因此该论文呼吁testing不使用drop-last操作，该论文在testing中没有使用drop-last操作。

3、时间序列特征说明

趋势性（Trend）：趋势性是指时间序列随着时间的推移而发生的长期变化或模式。直观地说，它代表了数据漂移的大致方向。

季节性（Seasonality）：季节性是指时间序列中的变化以特定的间隔重复的现象。

平稳性（Stationarity）：平稳性是指时间序列的各阶统计特征（如均值、方差…）不随时间的变化而变化。

漂移性（Shifting）：漂移性是指时间序列的概率分布随时间变化的现象。这种行为可能源于系统内部的结构变化、外部影响或随机事件的发生。

转移（Transition）：转移捕捉了时间序列中存在的规律性和可识别的固定特征，例如趋势、周期性的明确表现，或者季节性和趋势同时存在。

相关性（Correlation）：相关性是指多变量时间序列中不同变量可能共享的可能性共同的趋势或模式，表明它们受到相似的因素或具有某种潜在的关系。

这些特征的公式可从原论文中获取。

4、TFB：基准细节

数据集：TFB配备了25个多变量和8,068个单变量数据集。对时间序列数据进行特征化分析，确保所选数据集在不同特征上具有广泛的分布。对比方法：TFB包括了22种方法。评估设定：为了评估方法的预测准确性，TFB实现了两种不同的评估策略：1) 固定预测；和2) 滚动预测。为了对预测性能进行全面评估，TFB采用了八个误差度量指标。统一的流程：为了实现方法的公平和全面比较，TFB引入了一个统一的评估流程，分为数据层、方法层、评估层和报告层。

5、实验

单变量时间序列预测

多变量时间序列预测

不同特征上的性能

根据实验结果，总结了不同方法在各种数据特征上的表现和排名。讨论了基于Transformer的方法、线性方法以及考虑通道依赖性的方法在不同场景下的性能差异。研究了深度学习方法在多变量时间序列预测中的推理时间和参数数量的表现。提供了关于如何选择适合特定数据集和场景的预测方法的见解。

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载者并注明出处：https://jmbhsh.com/qitabaihuo/33391.html