全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点

简介: 时序数据在动态系统和应用中至关重要,但其复杂性使得分析极具挑战。Time-MoE是一种基于稀疏混合专家设计的可扩展架构,旨在预训练更大、更强大的时序预测模型,同时降低推理成本。它在新数据集Time-300B上训练,包含超过3000亿个时间点,跨9个领域,显著提升了预测精度,成为解决时序预测问题的先进方案。

时序数据是现实世界中动态系统和各种应用中的主要数据模态。时序数据的分析对于预测分析和决策制定至关重要。然而,时序数据的复杂性和分布变化使得其分析成为一个具有挑战性的任务。

在深度学习领域,时序预测已经取得了显著的进展。然而,尽管在语言和视觉领域中,大规模预训练已经取得了巨大的成功,但在时序领域中,预训练的时序模型仍然受到规模和成本的限制,阻碍了更大、更强大的预测模型的发展。

为了解决这个问题,一个由华人研究人员组成的团队发布了一个名为Time-MoE的可扩展和统一的架构,旨在预训练更大、更强大的预测基础模型,同时减少推理成本。

Time-MoE是一个基于稀疏混合专家(MoE)设计的可扩展架构。通过激活网络的子集来增强计算效率,从而减少计算负载,同时保持高模型容量。这使Time-MoE能够有效地扩展,而不会相应地增加推理成本。

Time-MoE由一组仅包含解码器的Transformer模型组成,以自回归方式运行,并支持具有不同输入上下文长度的灵活预测范围。这些模型在一个新的大型规模数据集Time-300B上进行了预训练,该数据集跨越9个领域,包含超过3000亿个时间点。

Time-MoE的创新之处在于其规模和能力。这是第一次将时序基础模型扩展到2.4亿参数,并取得了显著的预测精度改进。这一突破验证了在时序预测中,对于训练标记和模型大小的可扩展性定律的适用性。

与具有相同激活参数数量或等效计算预算的密集模型相比,Time-MoE模型在各种基准测试中表现得更好。这些改进使Time-MoE成为解决现实世界中时序预测挑战的最先进的解决方案,具有优越的能力、效率和灵活性。

Time-MoE的预训练数据集Time-300B是另一个创新点。这是最大的开放访问时序数据集,包含超过3000亿个时间点,跨越9个领域。数据集的多样性和规模为模型的泛化能力提供了坚实的基础。

在性能评估方面,Time-MoE在六个真实世界的基准测试中表现出色。与具有相似激活参数数量的其他时序基础模型相比,Time-MoE在零样本和分布内场景中分别实现了20%和24%的预测误差减少。

然而,尽管Time-MoE在许多方面表现出色,但仍有一些潜在的局限性。例如,尽管其稀疏设计提高了计算效率,但在某些情况下,密集模型可能仍然具有优势。此外,尽管Time-MoE在各种基准测试中表现良好,但其在实际应用中的泛化能力仍有待进一步验证。

论文链接:https://arxiv.org/pdf/2409.16040

目录
相关文章
|
7月前
|
编解码 人工智能
蚂蚁百灵大模型推出20亿参数遥感模型SkySense
【2月更文挑战第13天】蚂蚁百灵大模型推出20亿参数遥感模型SkySense
327 1
蚂蚁百灵大模型推出20亿参数遥感模型SkySense
|
22天前
|
数据采集 文字识别 测试技术
智源研究院发布千万级多模态指令数据集Infinity-MM:驱动开源模型迈向SOTA性能
近年来,视觉语言模型(VLM)取得了显著进展,然而,现有的开源数据和指令数据集在数量和质量上依然落后,基于开源数据训练的模型在效果上仍然远落后于 SOTA 闭源模型或使用专有数据训练的开源模型。为解决以上问题,进一步提升开源模型的性能,2024年10月25日,智源研究院发布并开源了千万级多模态指令数据集Infinity-MM。
|
2月前
|
人工智能 语音技术 UED
仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究
【10月更文挑战第19天】中国科学院计算技术研究所提出了一种名为LLaMA-Omni的新型模型架构,实现与大型语言模型(LLMs)的低延迟、高质量语音交互。该模型集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够在不进行语音转录的情况下直接生成文本和语音响应,显著提升了用户体验。实验结果显示,LLaMA-Omni的响应延迟低至226ms,具有创新性和实用性。
57 1
|
7月前
|
机器学习/深度学习 数据采集 人工智能
没有指数级数据就没有Zero-shot!生成式AI或已到达顶峰
【5月更文挑战第29天】生成式AI论文引发关注,提出无指数级数据增长或致其发展达顶峰。依赖大量数据的生成式AI可能已遇瓶颈,零样本学习能力受限。尽管有挑战,但研究建议关注数据质量、探索新算法及跨领域应用,同时应对环境、伦理问题。[论文链接](https://arxiv.org/pdf/2404.04125)
79 5
|
7月前
|
机器学习/深度学习 自然语言处理
谷歌发布时序预测基础模型TimesFM
【2月更文挑战第27天】谷歌发布时序预测基础模型TimesFM
625 3
谷歌发布时序预测基础模型TimesFM
|
4月前
|
数据采集 人工智能 自然语言处理
Llama 3.1发布:4050亿参数模型,迄今为止最强的开源大模型之一
Meta宣布发布Llama 3.1 405B,这一目前公开的最大且最先进的语言模型,标志着开源语言模型新时代的到来。Llama 3.1 405B不仅在常识理解、数学、工具使用及多语言翻译等功能上媲美顶尖AI模型,其8B和70B版本亦支持多种语言,拥有长达128K的上下文理解能力。该模型在150多个多语言基准测试中表现出色,并经过广泛的人工评估。为克服大规模训练挑战,Meta采用标准解码器架构和迭代后训练策略,大幅提升了数据质量和模型性能。此外,Llama 3.1通过监督微调、拒绝采样和直接偏好优化等手段提高了模型对指令的响应性和安全性。
84 2
|
存储 机器学习/深度学习 人工智能
Meta揭幕全球最快AI超算:目标一天之内训练万亿参数大模型
Meta揭幕全球最快AI超算:目标一天之内训练万亿参数大模型
256 0
|
计算机视觉
10亿参数、多项SOTA,智源开源视觉基础模型EVA
10亿参数、多项SOTA,智源开源视觉基础模型EVA
350 0
|
传感器 人工智能 编解码
世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成
世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成
148 0
|
人工智能 自动驾驶 算法
语言模型参数越多越好?DeepMind用700亿打败自家2800亿,训练优化出「小」模型
语言模型参数越多越好?DeepMind用700亿打败自家2800亿,训练优化出「小」模型
180 0