大语言模型对时间序列预测真的有用吗?

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 我们已经看到了语言模型的巨大进步,但时间序列任务,如预测呢?今天我们推荐一篇论文,对现有的语言模型和时间序列做了深入的研究。将探讨了是否可以从大型语言模型(LLMs)中获益于时间序列(TS)预测。

我们已经看到了语言模型的巨大进步,但时间序列任务,如预测呢?今天我们推荐一篇论文,对现有的语言模型和时间序列做了深入的研究。将探讨了是否可以从大型语言模型(LLMs)中获益于时间序列(TS)预测。

时间序列

时间序列是机器学习中最具挑战性的工作领域之一,解决时间序列任务,如异常检测、时间序列预测等,在多个行业中至关重要,能够节省大量资金。

由OpenAI发起的规模化法则显示,模型能在更多原始数据上更好地泛化结果就得到了ChatGPT。自那以后,大型语言模型(LLMs)吸引了所有人的注意。

自那以后,研究者们一直在尝试将LLMs用于时间序列!这在某种程度上是有道理的,因为无论是语言数据还是时间序列都是序列数据,研究者认为如果LLMs能在语言数据上表现出良好的泛化能力,那么它可能也适用于时间序列。

关于这方面有很多酷炫的研究成果,但问题是“有多少LLMs真正适用于时间序列任务?”

我认为一些工作展示了时间序列的光明未来,例如使用LLMs实现的时间序列推理和理解(代理)等。

时间序列推理:

使用大型语言模型(LLMs)进行时间序列推理可以通过整合三种主要的分析任务来增强时间序列推理:因果推理、问答和辅助上下文预测。

因果推理涉及假设观察到的时间序列模式背后的潜在原因,使模型能够识别最有可能产生给定时间序列数据的场景。

问答使模型能够解释和回应关于时间序列的事实性查询,如识别趋势或对数据变化进行反事实推断。

辅助上下文预测允许模型利用额外的文本信息来增强对未来数据点的预测,整合相关上下文以提高预测准确性。

但当前的LLMs在这些任务中表现出有限的熟练程度,比如在因果和问答任务中的表现仅略高于随机水平,并在辅助上下文预测中显示出适度的改进。

社会理解:

使用大型语言模型(LLMs)进行时间序列分析可以显著提高社会理解,使代理能够系统地分析和预测社会趋势和行为。基于LLM的代理使用来自财经、经济、民调和搜索趋势等多个领域的真实世界时间序列数据来近似社会的隐藏状态。这种近似有助于通过将时间序列数据与新闻和社交媒体等其他信息源相关联,对社会行为进行假设和验证。

通过整合这些多样化的数据流,LLMs能够深入洞察多面且动态的社会问题,促进包含逻辑和数字分析的复杂和混合推理。

这种方法确保代理不仅仅是执行历史数据拟合,而是积极与不断流动的真实世界数据互动并适应,使其分析和预测在真实场景中保持相关和适用。

但是当涉及到时间序列时,这些新模型并没有使用预训练的LMs的自然推理能力。

LLMs对时间序列任务真的有帮助吗?

一项新研究显示,如果我们用注意力层替换语言模型,性能不会有显著变化。即使完全移除它们,性能会变得更好。这甚至可以将训练和推理速度提高多达三个数量级。

研究者选择了三种改造方法:删除或替换LLM组件。这三种修改如下:

不使用LLM(图1(b))。完全移除语言模型,将输入令牌直接传递给参考方法的最后一层。

LLM2Attn(图1(c))。用一个单独的随机初始化的多头注意力层替换语言模型。

LLM2Trsf(图1(d))。用一个单独的随机初始化的Transformer块替换语言模型。

测试结果

使用的数据集主要是所有其他时间序列研究中的基准数据集:ETT、疾病、天气、交通、电力、汇率、Covid死亡人数、出租车(30分钟)、NN5(每日)和FRED-MD。

在所有情况下,这些改造方法都优于Time-LLM,在22个中的26个案例中优于LLaTA,在19个中的26个案例中优于OneFitsAll。这里使用的指标是MAE和MSE,分别代表平均绝对误差和均方误差。

可以得出的结论是,LLMs在时间序列预测任务上并没有以有意义的方式提高性能。

现在让我们看一下参数和时间消耗:

在时间序列任务中,LLM(如LLaMA和GPT-2)显著增加了训练时间。表格显示了在ETTh1和Weather数据上,对长度为96的预测,三种方法的模型参数数量(以百万计)和总训练时间(以分钟计)。与原始方法“带LLM”的比较是“不带LLM”,“LLM2Attn”和“LLM2Trsf”。

Time-LLM、OneFitsAll和LLaTA的平均训练时间分别是修改后模型的28.2倍、2.3倍和1.2倍。这表明,LLMs在时间序列计算上的权衡并不值得。

那么使用语言数据集进行预训练是否能够改善时间序列预测的结果?

该研究采用了四种不同的组合:预训练 + 微调、随机初始化 + 微调、预训练 + 不微调以及随机初始化 + 不微调。

随机初始化LLM参数并从头开始训练(无预训练,woPre)比使用预训练(Pre)模型取得了更好的结果。“无微调”(woFT)和“微调”(FT)分别指的是LLM参数是冻结的还是可训练的。

语言知识对预测的改进非常有限。然而,“预训练 + 不微调”和基线“随机初始化 + 不微调”分别在少样本(5次)和零样本的比较中表现最好,这暗示在微调过程中语言知识并没有帮助。

在ETTh1(预测长度为96)和Illness(预测长度为24)的输入打乱/遮蔽实验中,模型修改前后,输入打乱对时间序列预测性能的影响并没有显著变化。

在这个实验中,使用了三种类型的打乱方式:随机洗牌整个序列(“sf-all”),只洗牌序列的前半部分(“sf-half”),以及交换序列的前半部和后半部(“ex-half”)。

结果表明,基于LLM的模型对输入打乱的脆弱性并不比其改造版本更高。

总结

这项研究表明,最好还是让传统的时间序列预测方法继续使用它们习惯的方式,而不是尝试使用大型语言模型来处理时间序列任务。

但是这并不意味着不做任何事情;在时间序列和大型语言模型的交叉领域,还有一些新的、可能值得探索的有趣方向。

论文地址:

https://avoid.overfit.cn/post/7877010824204ec79657beb5016f21a1

作者:Reza Yazdanfar

目录
相关文章
|
3月前
|
机器学习/深度学习 数据采集 JavaScript
技术心得记录:机器学习——用逻辑回归及随机森林实现泰坦尼克号的生存预测
技术心得记录:机器学习——用逻辑回归及随机森林实现泰坦尼克号的生存预测
40 0
|
4月前
|
机器学习/深度学习
【机器学习】噪声数据对贝叶斯模型有什么样的影响?
【5月更文挑战第10天】【机器学习】噪声数据对贝叶斯模型有什么样的影响?
|
4月前
|
机器学习/深度学习 数据采集 自然语言处理
探索机器学习中的维度诅咒与特征工程
【4月更文挑战第26天】 在高维数据空间航行,机器学习模型常受维度诅咒之困扰,遭遇过拟合、计算成本增加和解释性下降等问题。本文通过深入分析维度诅咒的成因,探讨了特征工程作为解决之道的关键策略,包括特征选择、特征提取及特征转换等技术。我们将透过实例说明如何巧妙运用这些方法,以降低数据维度,提升模型性能,同时保持结果的可解释性。
|
4月前
|
机器学习/深度学习 算法
R语言隐马尔可夫模型HMM识别股市变化分析报告
R语言隐马尔可夫模型HMM识别股市变化分析报告
|
4月前
|
机器学习/深度学习
R语言计量经济学与有时间序列模式的机器学习预测
R语言计量经济学与有时间序列模式的机器学习预测
|
4月前
|
机器学习/深度学习 算法
机器学习的魔法(二)超越预测的界限-揭秘机器学习的黑科技-探索监督学习中的回归和分类问题
机器学习的魔法(二)超越预测的界限-揭秘机器学习的黑科技-探索监督学习中的回归和分类问题
165 0
|
4月前
|
机器学习/深度学习 数据采集 算法
GEE机器学习——利用支持向量机SVM进行土地分类和精度评定
GEE机器学习——利用支持向量机SVM进行土地分类和精度评定
204 0
|
机器学习/深度学习 数据采集 人工智能
金融时间序列预测方法合集:CNN、LSTM、随机森林、ARMA预测股票价格(适用于时序问题)、相似度计算、各类评判指标绘图(数学建模科研适用)
金融时间序列预测方法合集:CNN、LSTM、随机森林、ARMA预测股票价格(适用于时序问题)、相似度计算、各类评判指标绘图(数学建模科研适用)
金融时间序列预测方法合集:CNN、LSTM、随机森林、ARMA预测股票价格(适用于时序问题)、相似度计算、各类评判指标绘图(数学建模科研适用)
|
机器学习/深度学习 数据采集 数据可视化
基于Kaggle训练集预测的多层人工神经网络的能源消耗的时间序列预测研究(Matlab代码实现)
基于Kaggle训练集预测的多层人工神经网络的能源消耗的时间序列预测研究(Matlab代码实现)
|
机器学习/深度学习 自然语言处理 算法
机器学习系列入门系列[七]:基于英雄联盟数据集的LightGBM的分类预测
机器学习系列入门系列[七]:基于英雄联盟数据集的LightGBM的分类预测