达摩院10万亿M6模型技术实现深度解析-开发者社区-阿里云

10万亿！达摩院发布全球最大AI预训练模型M6

2021-11-26 9391

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 今天，阿里巴巴达摩院公布多模态大模型M6最新进展，其参数已从万亿跃迁至10万亿，成为全球最大的AI预训练模型。

今天，阿里巴巴达摩院公布多模态大模型M6最新进展，其参数已从万亿跃迁至10万亿，成为全球最大的AI预训练模型。

M6是达摩院研发的通用性人工智能大模型，拥有多模态、多任务能力，尤其擅长设计、写作、问答，在电商、制造业、文学艺术、科学研究等领域有广泛应用前景。

与传统AI相比，大模型拥有成百上千倍“神经元”数量，认知和创造能力也更胜一筹，被普遍认为是未来的“基础模型”。但大模型的算力成本相当高昂，训练1750亿参数语言大模型GPT-3所需能耗，相当于汽车行驶地月往返距离。

今年5月，通过专家并行策略及优化技术，达摩院M6团队将万亿模型能耗降低超八成、效率提升近11倍。

10月，M6再次突破业界极限，使用512 GPU在10天内即训练出具有可用水平的10万亿模型。相比去年发布的大模型GPT-3，M6实现同等参数规模，能耗仅为其1%。

将10万亿参数放进512张GPU

模型扩展到千亿及以上参数的超大规模时，将很难放在一台机器上。

为了帮助多模态预训练模型进行快速迭代训练，达摩院在阿里云PAI自研Whale框架上搭建MoE模型，并通过更细粒度的CPU offload技术，最终实现将10万亿参数放进512张GPU：

自研Whale框架：自研Whale分布式深度学习训练框架，针对数据并行、模型并行、流水并行、混合并行等多种并行模型进行了统一架构设计，让用户在仅仅添加几行API调用的情况下就可以实现丰富的分布式并行策略。

MoE专家并行策略：在Whale架构中实现Mixture-of-Experts（MoE）专家并行策略，在扩展模型容量、提升模型效果的基础上，不显著增加运算FLOPs（每秒所执行的浮点运算次数），从而实现高效训练大规模模型的目的。

CPU offload创新技术：在自研的分布式框架Whale中通过更细粒度的CPU offload，解决了有限资源放下极限规模的难题，并通过灵活地选择offload的模型层，进一步地提高GPU利用率。

训练速度大幅度提升

此外，针对训练效率问题，M6团队设计了Pseudo-to-Real（共享解除）机制，即利用训练好的共享参数模型初始化大模型，让收敛效率进一步提升7倍，解决大模型训练速度慢的问题。

对比不使用该机制，预训练达到同样loss用时仅需6%；和此前万亿模型相比，训练样本量仅需40%。

作为国内首个商业化落地的多模态大模型，M6已在超40个场景中应用，日调用量上亿。

今年，大模型首次支持双11，应用包括但不限于：

M6在犀牛智造为品牌设计的服饰已在淘宝上线；
凭借流畅的写作能力，M6正为天猫虚拟主播创作剧本；
依靠多模态理解能力，M6正在增进淘宝、支付宝等平台的搜索及内容认知精度。

M6设计的飞行汽车

未来，M6将积极探索与科学应用的结合，通过AI for science让大模型的潜力充分发挥，并加强M6与国产芯片的软硬一体化研究。

达摩院智能计算实验室负责人周靖人表示：

“接下来，我们将深入研究大脑认知机理，致力于将M6的认知力提升至接近人类的水平；另一方面，还将不断增强M6在不同场景中的创造力，产生出色的应用价值。”

目前，达摩院联合阿里云已推出M6服务化平台（https://m6.aliyun.com），为大模型训练及应用提供完备工具，首次让大模型实现“开箱即用”，算法人员及普通用户均可方便地使用平台。

备注：来源| 阿里云公众号

10万亿！达摩院发布全球最大AI预训练模型M6

云攻略小攻

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

10万亿！达摩院发布全球最大AI预训练模型M6

云攻略小攻

热门文章

最新文章

相关课程

相关电子书

相关实验场景