1.75 万亿参数,智源重磅发布全球最大预训练模型「悟道 2.0」

简介: 1.75 万亿参数,智源重磅发布全球最大预训练模型「悟道 2.0」

6 月 1 日,第三届北京智源大会正式开幕。在大会开幕式上,智源研究院重磅发布了全球最大的超大规模智能模型「悟道 2.0」。

「悟道 2.0」模型的参数规模达到 1.75 万亿,是 GPT-3 的 10 倍,打破了之前由谷歌 Switch Transformer 预训练模型创造的 1.6 万亿参数记录,是目前中国首个、全球最大的万亿级模型。


从 1.0 到 2.0,「悟道」探索通用人工智能

今年 3 月 20 日,智源研究院发布了超大规模智能模型「悟道 1.0」,训练出中文、多模态、认知、蛋白质预测等系列模型。智源研究院院长黄铁军教授在介绍「悟道」模型研发初衷时表示,近年来人工智能的发展已经从「大炼模型」逐步迈向了「炼大模型」的阶段,通过设计先进的算法,整合尽可能多的数据,汇聚大量算力,集约化地训练大模型,供大量企业使用,这是必然趋势。

而昨日发布的「悟道 2.0」正是对「炼大模型」的又一次成功探索。

从 15 亿参数的 GPT-2、1750 亿参数的 GPT-3,到 1.6 万亿参数的 Switch Transformer,深度学习模型积极拥抱暴力美学,然而这些模型并非以中文为核心。拥有 1.75 万亿参数的悟道 2.0,做到的不只是参数量的突破,它也是首个万亿级中文预训练模型。智源研究院理事长张宏江认为,目前「大模型 + 大算力」是迈向通用人工智能的一条可行路径。

智源研究院学术副院长唐杰教授表示,「悟道」旨在打造数据和知识双轮驱动的认知智能,让机器能够像人一样思考,实现超越图灵测试的机器认知能力。「悟道」团队在大规模预训练模型研发上做了很多基础性工作,形成了自主的超大规模智能模型技术创新体系,拥有从预训练理论技术到预训练工具,再到预训练模型构建和最终模型测评的完整链条,从技术上是完整成熟的。通过一系列原始创新和技术突破,本次发布的「悟道 2.0」实现了「大而聪明」,具备大规模、高精度、高效率的特点。


悟道 2.0:「大而聪明」

悟道 2.0 的参数规模达到破记录的 1.75 万亿。据介绍,新一代 FastMoE 技术是悟道 2.0 实现「万亿模型」基石的关键。

以往,由于 Google 万亿模型的核⼼技术 MoE(Mixture of Experts)与其分布式训练框架和其定制硬件强绑定,绝大多数人无法得到使用与研究的机会。「悟道」团队研究并开源的 FastMoE 技术是首个支持 PyTorch 框架的 MoE 系统,具有简单易用、灵活、高性能等特点,并且支持大规模并行训练。新一代 FastMoE 支持 Switch、GShard 等复杂均衡策略,支持不同专家不同模型,为万亿模型实现方案补上了最后⼀块短板。

yy.png

FastMoE 数据并行模式,每个 worker 放置多个 experts,worker 之间数据并行。top-2 gate 指的是门网络会选择激活分数最高的 2 个专家网络。(https://hub.baai.ac.cn/view/6...

唐杰表示:「除了参数规模之外,悟道 2.0 还可以同时支撑更多的应用,实现更加通用的智能。另外,我们首次在 100% 的国产超算平台上训练了万亿模型。」悟道 2.0 模型一统文本与视觉两大阵地,支撑更多任务,更加通用化。

在数据方面,「悟道 2.0」模型基于中英双语共 4.9T 的高质量大规模清洗数据进行训练。训练数据包含 WuDaoCorpora 的 1.2TB 中文文本数据、2.5TB 中文图文数据,以及 Pile 数据集的 1.2TB 英文文本数据。

那么,「悟道 2.0」模型究竟能力如何呢?智源研究院公布了其在世界公认的 9 项 Benchmark 基准测试任务上的成绩。

  1. ImageNet zero-shot SOTA 超过 OpenAI CLIP;
  2. LAMA 知识探测:超过 AutoPrompt;
  3. LAMABADA 完形填空:能力超过微软 Turing NLG;
  4. SuperGLUE few-shot FewGLUE:超越 GPT-3,取得当前最佳少样本学习结果;
  5. UC Merced Land-Use zero-shot SOTA,超过 OpenAI CLIP;
  6. MS COCO 文生成图:超越 OpenAI 的 DALL·E;
  7. MS COCO 英文图文检索:超过 OpenAI CLIP 和 Google ALIGN;
  8. MS COCO 多语言图文检索:超过目前最好的多语言多模态预训练模型 UC2,M3P;
  9. Multi 30K 多语言图文检索:超过目前最好的多语言多模态预训练模型 UC2,M3P。yy.png

「悟道 2.0」的高精度来自于一系列核心技术创新。例如:

  • GLM2.0:模型架构创新的典范,更通用的预训练模型。此前,它首次打破 BERT 和 GPT 壁垒,开创性地以单一模型兼容所有主流架构,新一代版本更是以少胜多的高性能人工智能典范,以 100 亿参数量,足以匹敌微软 170 亿参数的 Turing-NLG 模型,取得多项任务的更优成绩。
  • P-tuning2.0 算法:极大地拉近少样本学习和全监督学习的差距,少样本学习能力遥遥领先。
  • CogView:文本生成图像的新框架,克服「上下溢收敛」文图模型关键难题,将 VQ-VAE 和 Transformer 进行结合,表现 SOTA(当前算法性能最优的模型)!在 MS COCO FID 指标上性能优于 DALL·E 等模型。模型可直接实现类似 OpenAI CLIP 模型的自评分功能,生成国画、油画、卡通画、轮廓画等多元画风。

此外,在「悟道」模型研发过程中,智源研究院建设了全球最大的语料数据库 WuDaoCorpora2.0,包含全球最大的中文文本数据集 (3TB)、全球最大的多模态数据集 (90TB)、全球最大的对话数据集 (181G),为行业内大规模智能模型的研发提供了丰富的数据支撑。 yy.png

除了悟道 2.0 模型的发布,这场 AI 盛会邀请到 200 余位国内外人工智能领域的顶尖专家,围绕人工智能领域的前沿研究进展及趋势开展深入研讨。大会围绕国际人工智能学术前沿和产业热点设置了「预训练模型」「机器学习」「群体智能」「人工智能的数理基础」「智能体系架构与芯片」「精准智能」「智能信息检索与挖掘」「青源学术年会」「AI创业」「AI制药」「AI系统」「AI开放与共享」「AI科技女性」等29个专题论坛。

在 6 月 1 日的开幕式上,图灵奖得主 Yoshua Bengio、清华大学国家金融研究院院长朱民博士,北京大学鄂维南院士分别围绕逻辑分析系统 System2、数据资产、科学与智能做了精彩的主旨报告。

相关文章
|
机器学习/深度学习 算法 PyTorch
PyTorch团队首发技术路线图,近百页文档披露2024下半年发展方向
【8月更文挑战第2天】PyTorch团队首度公布了详尽的技术路线图,规划了2024年下半年的发展蓝图。这份近100页的文档聚焦四大核心领域:性能提升,包括算法优化及硬件支持;易用性改进,旨在简化API并增强文档;生态系统建设,扩展硬件兼容性和框架集成;研究支持,提供丰富的工具促进学术探索。尽管前景光明,但仍面临持续优化、用户体验平衡、生态建设和跟踪科研进展等挑战。[原文链接](https://dev-discuss.pytorch.org/t/meta-pytorch-team-2024-h2-roadmaps/2226)
239 8
如今的入职背调到底有多刺激?
如今的入职背调到底有多刺激?
478 0
|
12月前
|
机器学习/深度学习 数据采集
深度学习之脑电图信号解码
基于深度学习的脑电图(EEG)信号解码是一项重要的研究领域,旨在从脑电图信号中提取有用信息,用于脑-机接口、情绪识别、疾病诊断等应用。
341 5
基于GA-PSO遗传粒子群混合优化算法的CVRP问题求解matlab仿真
本文介绍了一种基于GA-PSO混合优化算法求解带容量限制的车辆路径问题(CVRP)的方法。在MATLAB2022a环境下运行,通过遗传算法的全局搜索与粒子群算法的局部优化能力互补,高效寻找最优解。程序采用自然数编码策略,通过选择、交叉、变异操作及粒子速度和位置更新,不断迭代直至满足终止条件,旨在最小化总行驶距离的同时满足客户需求和车辆载重限制。
|
消息中间件 Java API
Java一分钟之-JMS:Java消息服务
【6月更文挑战第11天】Java消息服务(JMS)是企业应用中实现组件解耦和异步通信的标准API。它包含点对点(P2P)和发布/订阅(Pub/Sub)两种消息模型。常见问题包括混淆消息模型、忽略事务管理和资源泄露。解决方法包括明确业务需求选择模型、使用事务确保消息可靠性以及正确关闭资源。文中提供了使用ActiveMQ的P2P模型的生产者和消费者代码示例,强调理解基础概念、避免问题以及实践是使用JMS的关键。
464 2
|
机器学习/深度学习 数据采集 算法
机器学习实战第1天:鸢尾花分类任务
机器学习实战第1天:鸢尾花分类任务
|
机器学习/深度学习 JSON 自然语言处理
阿里云PAI-灵骏大模型训练工具Pai-Megatron-Patch正式开源!
随着深度学习大语言模型的不断发展,其模型结构和量级在快速演化,依托大模型技术的应用更是层出不穷。对于广大开发者来说不仅要考虑如何在复杂多变的场景下有效的将大模型消耗的算力发挥出来,还要应对大模型的持续迭代。开发简单易用的大模型训练工具就成了应对以上问题广受关注的技术方向,让开发者专注于大模型解决方案的开发,降低大模型训练加速性能优化和训练/推理全流程搭建的人力开发成本。阿里云机器学习平台PAI开源了业内较早投入业务应用的大模型训练工具Pai-Megatron-Patch,本文将详解Pai-Megatron-Patch的设计原理和应用。
|
负载均衡 算法 网络协议
SLB基本概念
SLB基本概念
671 3
|
消息中间件 监控 NoSQL
在Windows下设置分布式队列Celery的心跳轮询
在Windows下设置分布式队列Celery的心跳轮询
683 0