全球首次！时序大模型突破十亿参数，华人团队发布Time-MoE，预训练数据达3000亿个时间点-阿里云开发者社区

全球首次！时序大模型突破十亿参数，华人团队发布Time-MoE，预训练数据达3000亿个时间点

2024-12-02 15

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 时序数据在动态系统和应用中至关重要，但其复杂性使得分析极具挑战。Time-MoE是一种基于稀疏混合专家设计的可扩展架构，旨在预训练更大、更强大的时序预测模型，同时降低推理成本。它在新数据集Time-300B上训练，包含超过3000亿个时间点，跨9个领域，显著提升了预测精度，成为解决时序预测问题的先进方案。

时序数据是现实世界中动态系统和各种应用中的主要数据模态。时序数据的分析对于预测分析和决策制定至关重要。然而，时序数据的复杂性和分布变化使得其分析成为一个具有挑战性的任务。

在深度学习领域，时序预测已经取得了显著的进展。然而，尽管在语言和视觉领域中，大规模预训练已经取得了巨大的成功，但在时序领域中，预训练的时序模型仍然受到规模和成本的限制，阻碍了更大、更强大的预测模型的发展。

为了解决这个问题，一个由华人研究人员组成的团队发布了一个名为Time-MoE的可扩展和统一的架构，旨在预训练更大、更强大的预测基础模型，同时减少推理成本。

Time-MoE是一个基于稀疏混合专家（MoE）设计的可扩展架构。通过激活网络的子集来增强计算效率，从而减少计算负载，同时保持高模型容量。这使Time-MoE能够有效地扩展，而不会相应地增加推理成本。

Time-MoE由一组仅包含解码器的Transformer模型组成，以自回归方式运行，并支持具有不同输入上下文长度的灵活预测范围。这些模型在一个新的大型规模数据集Time-300B上进行了预训练，该数据集跨越9个领域，包含超过3000亿个时间点。

Time-MoE的创新之处在于其规模和能力。这是第一次将时序基础模型扩展到2.4亿参数，并取得了显著的预测精度改进。这一突破验证了在时序预测中，对于训练标记和模型大小的可扩展性定律的适用性。

与具有相同激活参数数量或等效计算预算的密集模型相比，Time-MoE模型在各种基准测试中表现得更好。这些改进使Time-MoE成为解决现实世界中时序预测挑战的最先进的解决方案，具有优越的能力、效率和灵活性。

Time-MoE的预训练数据集Time-300B是另一个创新点。这是最大的开放访问时序数据集，包含超过3000亿个时间点，跨越9个领域。数据集的多样性和规模为模型的泛化能力提供了坚实的基础。

在性能评估方面，Time-MoE在六个真实世界的基准测试中表现出色。与具有相似激活参数数量的其他时序基础模型相比，Time-MoE在零样本和分布内场景中分别实现了20%和24%的预测误差减少。

然而，尽管Time-MoE在许多方面表现出色，但仍有一些潜在的局限性。例如，尽管其稀疏设计提高了计算效率，但在某些情况下，密集模型可能仍然具有优势。此外，尽管Time-MoE在各种基准测试中表现良好，但其在实际应用中的泛化能力仍有待进一步验证。

论文链接：https://arxiv.org/pdf/2409.16040

全球首次！时序大模型突破十亿参数，华人团队发布Time-MoE，预训练数据达3000亿个时间点

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

全球首次！时序大模型突破十亿参数，华人团队发布Time-MoE，预训练数据达3000亿个时间点

热门文章

最新文章

相关课程

相关电子书

相关实验场景