全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点

简介: 时序数据在动态系统和应用中至关重要,但其复杂性使得分析极具挑战。Time-MoE是一种基于稀疏混合专家设计的可扩展架构,旨在预训练更大、更强大的时序预测模型,同时降低推理成本。它在新数据集Time-300B上训练,包含超过3000亿个时间点,跨9个领域,显著提升了预测精度,成为解决时序预测问题的先进方案。

时序数据是现实世界中动态系统和各种应用中的主要数据模态。时序数据的分析对于预测分析和决策制定至关重要。然而,时序数据的复杂性和分布变化使得其分析成为一个具有挑战性的任务。

在深度学习领域,时序预测已经取得了显著的进展。然而,尽管在语言和视觉领域中,大规模预训练已经取得了巨大的成功,但在时序领域中,预训练的时序模型仍然受到规模和成本的限制,阻碍了更大、更强大的预测模型的发展。

为了解决这个问题,一个由华人研究人员组成的团队发布了一个名为Time-MoE的可扩展和统一的架构,旨在预训练更大、更强大的预测基础模型,同时减少推理成本。

Time-MoE是一个基于稀疏混合专家(MoE)设计的可扩展架构。通过激活网络的子集来增强计算效率,从而减少计算负载,同时保持高模型容量。这使Time-MoE能够有效地扩展,而不会相应地增加推理成本。

Time-MoE由一组仅包含解码器的Transformer模型组成,以自回归方式运行,并支持具有不同输入上下文长度的灵活预测范围。这些模型在一个新的大型规模数据集Time-300B上进行了预训练,该数据集跨越9个领域,包含超过3000亿个时间点。

Time-MoE的创新之处在于其规模和能力。这是第一次将时序基础模型扩展到2.4亿参数,并取得了显著的预测精度改进。这一突破验证了在时序预测中,对于训练标记和模型大小的可扩展性定律的适用性。

与具有相同激活参数数量或等效计算预算的密集模型相比,Time-MoE模型在各种基准测试中表现得更好。这些改进使Time-MoE成为解决现实世界中时序预测挑战的最先进的解决方案,具有优越的能力、效率和灵活性。

Time-MoE的预训练数据集Time-300B是另一个创新点。这是最大的开放访问时序数据集,包含超过3000亿个时间点,跨越9个领域。数据集的多样性和规模为模型的泛化能力提供了坚实的基础。

在性能评估方面,Time-MoE在六个真实世界的基准测试中表现出色。与具有相似激活参数数量的其他时序基础模型相比,Time-MoE在零样本和分布内场景中分别实现了20%和24%的预测误差减少。

然而,尽管Time-MoE在许多方面表现出色,但仍有一些潜在的局限性。例如,尽管其稀疏设计提高了计算效率,但在某些情况下,密集模型可能仍然具有优势。此外,尽管Time-MoE在各种基准测试中表现良好,但其在实际应用中的泛化能力仍有待进一步验证。

论文链接:https://arxiv.org/pdf/2409.16040

目录
相关文章
|
10月前
|
编解码 人工智能
蚂蚁百灵大模型推出20亿参数遥感模型SkySense
【2月更文挑战第13天】蚂蚁百灵大模型推出20亿参数遥感模型SkySense
395 1
蚂蚁百灵大模型推出20亿参数遥感模型SkySense
|
4月前
|
数据采集 文字识别 测试技术
智源研究院发布千万级多模态指令数据集Infinity-MM:驱动开源模型迈向SOTA性能
近年来,视觉语言模型(VLM)取得了显著进展,然而,现有的开源数据和指令数据集在数量和质量上依然落后,基于开源数据训练的模型在效果上仍然远落后于 SOTA 闭源模型或使用专有数据训练的开源模型。为解决以上问题,进一步提升开源模型的性能,2024年10月25日,智源研究院发布并开源了千万级多模态指令数据集Infinity-MM。
|
2月前
|
人工智能 测试技术
Valley:字节跳动开源小体积的多模态模型,在小于 10B 参数的模型中排名第二
Valley 是字节跳动推出的多模态大模型,能够处理文本、图像和视频数据,在电子商务和短视频领域表现优异,并在 OpenCompass 测试中排名第二。
154 10
Valley:字节跳动开源小体积的多模态模型,在小于 10B 参数的模型中排名第二
|
3月前
|
人工智能 运维 算法
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner
南加州大学提出TS-Reasoner,一种基于大型语言模型的时间序列一站式多步推理框架。它能将复杂任务分解为多个子任务,如预测、异常检测等,通过组合现有模型完成多步推理。实验显示,TS-Reasoner在金融和能源领域的多步推理任务中表现出色,但需大量计算资源且灵活性有限。论文链接:https://arxiv.org/pdf/2410.04047
82 14
|
7月前
|
数据采集 人工智能 自然语言处理
Llama 3.1发布:4050亿参数模型,迄今为止最强的开源大模型之一
Meta宣布发布Llama 3.1 405B,这一目前公开的最大且最先进的语言模型,标志着开源语言模型新时代的到来。Llama 3.1 405B不仅在常识理解、数学、工具使用及多语言翻译等功能上媲美顶尖AI模型,其8B和70B版本亦支持多种语言,拥有长达128K的上下文理解能力。该模型在150多个多语言基准测试中表现出色,并经过广泛的人工评估。为克服大规模训练挑战,Meta采用标准解码器架构和迭代后训练策略,大幅提升了数据质量和模型性能。此外,Llama 3.1通过监督微调、拒绝采样和直接偏好优化等手段提高了模型对指令的响应性和安全性。
143 2
|
编解码 vr&ar 计算机视觉
39亿参数模型公开可用,采样速度7倍提升,残差量化生成图片入选CVPR'22
39亿参数模型公开可用,采样速度7倍提升,残差量化生成图片入选CVPR'22
220 0
39亿参数模型公开可用,采样速度7倍提升,残差量化生成图片入选CVPR'22
|
存储 机器学习/深度学习 人工智能
Meta揭幕全球最快AI超算:目标一天之内训练万亿参数大模型
Meta揭幕全球最快AI超算:目标一天之内训练万亿参数大模型
299 0
|
传感器 人工智能 编解码
世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成
世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成
184 0
|
机器学习/深度学习 编解码 人工智能
稠密检索新突破:华为提出掩码自编码预训练模型,大幅刷新多项基准
稠密检索新突破:华为提出掩码自编码预训练模型,大幅刷新多项基准
303 0
|
人工智能 自动驾驶 算法
语言模型参数越多越好?DeepMind用700亿打败自家2800亿,训练优化出「小」模型
语言模型参数越多越好?DeepMind用700亿打败自家2800亿,训练优化出「小」模型
194 0