全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点

简介: 时序数据在动态系统和应用中至关重要,但其复杂性使得分析极具挑战。Time-MoE是一种基于稀疏混合专家设计的可扩展架构,旨在预训练更大、更强大的时序预测模型,同时降低推理成本。它在新数据集Time-300B上训练,包含超过3000亿个时间点,跨9个领域,显著提升了预测精度,成为解决时序预测问题的先进方案。

时序数据是现实世界中动态系统和各种应用中的主要数据模态。时序数据的分析对于预测分析和决策制定至关重要。然而,时序数据的复杂性和分布变化使得其分析成为一个具有挑战性的任务。

在深度学习领域,时序预测已经取得了显著的进展。然而,尽管在语言和视觉领域中,大规模预训练已经取得了巨大的成功,但在时序领域中,预训练的时序模型仍然受到规模和成本的限制,阻碍了更大、更强大的预测模型的发展。

为了解决这个问题,一个由华人研究人员组成的团队发布了一个名为Time-MoE的可扩展和统一的架构,旨在预训练更大、更强大的预测基础模型,同时减少推理成本。

Time-MoE是一个基于稀疏混合专家(MoE)设计的可扩展架构。通过激活网络的子集来增强计算效率,从而减少计算负载,同时保持高模型容量。这使Time-MoE能够有效地扩展,而不会相应地增加推理成本。

Time-MoE由一组仅包含解码器的Transformer模型组成,以自回归方式运行,并支持具有不同输入上下文长度的灵活预测范围。这些模型在一个新的大型规模数据集Time-300B上进行了预训练,该数据集跨越9个领域,包含超过3000亿个时间点。

Time-MoE的创新之处在于其规模和能力。这是第一次将时序基础模型扩展到2.4亿参数,并取得了显著的预测精度改进。这一突破验证了在时序预测中,对于训练标记和模型大小的可扩展性定律的适用性。

与具有相同激活参数数量或等效计算预算的密集模型相比,Time-MoE模型在各种基准测试中表现得更好。这些改进使Time-MoE成为解决现实世界中时序预测挑战的最先进的解决方案,具有优越的能力、效率和灵活性。

Time-MoE的预训练数据集Time-300B是另一个创新点。这是最大的开放访问时序数据集,包含超过3000亿个时间点,跨越9个领域。数据集的多样性和规模为模型的泛化能力提供了坚实的基础。

在性能评估方面,Time-MoE在六个真实世界的基准测试中表现出色。与具有相似激活参数数量的其他时序基础模型相比,Time-MoE在零样本和分布内场景中分别实现了20%和24%的预测误差减少。

然而,尽管Time-MoE在许多方面表现出色,但仍有一些潜在的局限性。例如,尽管其稀疏设计提高了计算效率,但在某些情况下,密集模型可能仍然具有优势。此外,尽管Time-MoE在各种基准测试中表现良好,但其在实际应用中的泛化能力仍有待进一步验证。

论文链接:https://arxiv.org/pdf/2409.16040

目录
相关文章
|
8月前
|
编解码 人工智能
蚂蚁百灵大模型推出20亿参数遥感模型SkySense
【2月更文挑战第13天】蚂蚁百灵大模型推出20亿参数遥感模型SkySense
358 1
蚂蚁百灵大模型推出20亿参数遥感模型SkySense
|
2天前
|
人工智能 JSON API
LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力
LongDocURL 是由中科院与淘天集团联合推出的多模态长文档理解基准数据集,涵盖 2,325 个问答对,支持复杂文档的理解、推理和定位任务。
112 77
LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力
|
2月前
|
数据采集 文字识别 测试技术
智源研究院发布千万级多模态指令数据集Infinity-MM:驱动开源模型迈向SOTA性能
近年来,视觉语言模型(VLM)取得了显著进展,然而,现有的开源数据和指令数据集在数量和质量上依然落后,基于开源数据训练的模型在效果上仍然远落后于 SOTA 闭源模型或使用专有数据训练的开源模型。为解决以上问题,进一步提升开源模型的性能,2024年10月25日,智源研究院发布并开源了千万级多模态指令数据集Infinity-MM。
|
5月前
|
人工智能 自然语言处理
公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4
【8月更文挑战第3天】新论文提出“公理训练”法,使仅有6700万参数的语言模型掌握因果推理,性能媲美万亿级GPT-4。研究通过大量合成数据示例教授模型因果公理,实现有效推理并泛化至复杂图结构。尽管面临合成数据需求大及复杂关系处理限制,此法仍为语言模型的因果理解开辟新途径。[链接: https://arxiv.org/pdf/2407.07612]
88 1
|
2月前
|
人工智能 自然语言处理 测试技术
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【10月更文挑战第29天】Playground v3(PGv3)是最新发布的文本到图像生成模型,其在多个测试基准上取得了最先进的性能。与传统模型不同,PGv3采用了一种全新的结构,将大型语言模型与图像生成模型深度融合,展现出卓越的文本提示遵循、复杂推理和准确的文本渲染能力。此外,PGv3还具备超越人类的图形设计能力,支持精确的RGB颜色控制和多语言理解,为设计师和创意工作者提供了强大的工具。尽管存在一些挑战,但PGv3的发布标志着文本到图像生成技术的重大突破。
46 6
|
3月前
|
人工智能 语音技术 UED
仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究
【10月更文挑战第19天】中国科学院计算技术研究所提出了一种名为LLaMA-Omni的新型模型架构,实现与大型语言模型(LLMs)的低延迟、高质量语音交互。该模型集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够在不进行语音转录的情况下直接生成文本和语音响应,显著提升了用户体验。实验结果显示,LLaMA-Omni的响应延迟低至226ms,具有创新性和实用性。
87 1
|
5月前
|
数据采集 人工智能 自然语言处理
Llama 3.1发布:4050亿参数模型,迄今为止最强的开源大模型之一
Meta宣布发布Llama 3.1 405B,这一目前公开的最大且最先进的语言模型,标志着开源语言模型新时代的到来。Llama 3.1 405B不仅在常识理解、数学、工具使用及多语言翻译等功能上媲美顶尖AI模型,其8B和70B版本亦支持多种语言,拥有长达128K的上下文理解能力。该模型在150多个多语言基准测试中表现出色,并经过广泛的人工评估。为克服大规模训练挑战,Meta采用标准解码器架构和迭代后训练策略,大幅提升了数据质量和模型性能。此外,Llama 3.1通过监督微调、拒绝采样和直接偏好优化等手段提高了模型对指令的响应性和安全性。
99 2
|
存储 机器学习/深度学习 人工智能
Meta揭幕全球最快AI超算:目标一天之内训练万亿参数大模型
Meta揭幕全球最快AI超算:目标一天之内训练万亿参数大模型
270 0
|
传感器 人工智能 编解码
世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成
世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成
155 0
|
机器学习/深度学习 编解码 人工智能
稠密检索新突破:华为提出掩码自编码预训练模型,大幅刷新多项基准
稠密检索新突破:华为提出掩码自编码预训练模型,大幅刷新多项基准
274 0

热门文章

最新文章