智源「悟道3.0」大模型系列问世,这次不拼参数,开源开放成为主角(1)

简介: 智源「悟道3.0」大模型系列问世,这次不拼参数,开源开放成为主角

智源「悟道3.0」大模型系列问世,这次不拼参数,开源开放成为主角

原创机器之心机器之心 2023-06-09 21:11 发表于北京

机器之心报道

编辑:杜伟


现如今,大模型早已成为街谈巷议的 AI 话题,ChatGPT 更火出了圈。NLP、CV 和多模态领域的大模型层出不穷,并朝着通用方向不断演进,让人们看到了 AGI 的希望。

在大模型时代,除了继续升级预训练、微调等技术和算法之外,构建开源开放的大模型评测体系和生态同等重要。说来容易,但做起来很难。仅就开源而言,谷歌、OpenAI 等头部 AI 企业对自己的大模型大多并没有开源或仅开放 API 使用,正在逐渐形成壁垒。

在国内,作为最早系统化布局大模型的科研机构,北京智源人工智能研究院(以下简称智源)自 2021 年以来先后推出悟道 1.0、悟道 2.0 大模型系列,并连创「中国首个 + 世界最大」记录。悟道 1.0 是我国首个超大规模智能模型系统,悟道 2.0 参数规模更是达到 1.75 万亿,成为当时中国首个、全球最大的万亿级模型。

6 月 9 日,在 2023 北京智源大会上,智源发布了完整的悟道 3.0 大模型系列,并进入到了全面开源的新阶段。此次悟道 3.0 包含的项目有「悟道・天鹰」(Aquila)语言大模型系列、FlagEval (天秤)大模型语言评测体系以及「悟道・视界」视觉大模型系列。此外 FlagOpen 飞智也带来了开源大模型技术体系最新进展。

智源研究院院长黄铁军教授发布悟道 3.0大模型系列

作为大模型领域年度巅峰盛会,智源大会至今已经举办了五届,为加强产学研协同、促进国际交流与合作、打造世界人工智能学术高地做出了重要贡献。本届大会邀请到了图灵奖得主 Geoffrey Hinton、Yann LeCun、Joseph Sifakis 和姚期智,OpenAI 首席执行官 Sam Altman、加州大学伯克利分校人工智能系统中心创始人 Stuart Russell、中国科学院张钹院士及中国工程院郑南宁院士、 中国工程院外籍院士、美国艺术与科学院院士张亚勤、Midjourney 创始人 David Holz 等重磅嘉宾,共议人工智能前沿与热点话题。

今年大会共同主席为智源研究院理事长张宏江,以及加州大学伯克利分校教授、智源学术顾问委员 Michael I. Jordan。共同程序主席为智源研究院院长黄铁军教授,以及清华大学教授、智源首席科学家朱军。

时至今日,每年一度的智源大会已经成为促进国际人工智能生态发展的标志性活动,在人工智能精英人群中备受推崇,国际视野、专业前沿、思想激荡,推动各方更好地把握住高速发展的人工智能大模型时代。

历经 1.0、2.0,悟道 3.0 进入全面开源新阶段

回望 2021 年 3 月和 6 月,智源在两个多月时间里先后发布了悟道 1.0 和悟道 2.0。彼时,AI 领域进入到了「炼大模型」的阶段,智源也集中力量打造能力达到 SOTA 的数十亿乃至万亿参数大模型,以此对标、超越谷歌、OpenAI 等国外 AI 巨头的超大规模大模型(如 GPT-3、Switch Transformer)。

不过自悟道 2.0 始,智源就不仅仅是研发模型。智源研究院院长黄铁军表示,智源更偏向于构建以大模型为核心的生态,包括底层数据处理和汇聚、模型能力和算法评测、开源开放,形成一套高效的大模型技术和算法体系。

因此在悟道 3.0 大模型系列中,智源发布并全面开源「悟道・天鹰」(Aquila)语言大模型系列和「悟道・视界」视觉大模型系列,与多个高校和科研院所合作构建 FlagEval(天秤)开源大模型评测体系与开放平台,加之 FlagOpen 飞智大模型技术开源体系,通过全方位的大模型技术、评测体系以及更广泛的开源生态,服务于大模型行业发展。

悟道・天鹰 + 天秤,合力打造大模型能力与评测双标杆

时至今日,随着模型规模的不断增长,语言大模型已经变得非常「聪明」和「全能」。以 ChatGPT、GPT-4 为例,它们已经具备超强理解和推理能力,并在上下文学习(ICL)、思维链(CoT)等任务中出现了业界从未预测到的涌现能力。不过对于这些大模型,OpenAI 无一例外选择不开源。

在悟道 3.0 大模型系列中,智源走出了一条不同的道路。智源发布了首个具备中英双语知识、支持商用许可协议、支持国内数据合规要求的「悟道・天鹰」(Aquila)语言大模型系列,结合 FlagEval(天秤)开源大模型评测体系及开放平台,打造 “大模型进化流水线”,持续迭代、持续开源开放。

对于「悟道・天鹰」语言大模型系列,它包含了 Aquila 基础模型(7B、33B)以及 AquilaChat 对话模型和 AquilaCode 文本 - 代码生成模型。
开源地址:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila


整体来看,「悟道・天鹰」Aquila 语言大模型在技术上继承了 GPT-3、LLaMA 等的架构设计优点,替换了一批更高效的底层算子实现、重新设计实现了中英双语的 tokenizer,升级了 BMTrain 并行训练方法,训练效率是 Magtron+DeepSpeed ZeRO-2 的近 8 倍。

此外在中英文高质量语料基础上从0开始训练,通过数据质量控制、多种训练优化方法,在更小数据集、更短训练时间下,实现比其他开源模型更优秀的性能。

「悟道・天鹰」Aquila基础模型。

AquilaChat 对话模型(7B、33B)是智源推出的类 ChatGPT 模型,它是一个单模态语言大模型,支持流畅的文本对话及多种语言类生成任务;通过定义可扩展的特殊指令规范,实现通过 AquilaChat 对其它模型和工具的调用,且易于扩展。例如,调用智源开源的 AltDiffusion 多语言文图生成模型,实现了流畅的文图生成能力。配合智源 InstructFace 多步可控文生图模型,它还可以轻松实现对人脸图像的多步可控编辑。

文图生成。

人脸图像多步可控编辑。

智源研究院副院长、总工程师林咏华表示,根据内部对 AquilaChat 的评测,其综合能力能够达到 GPT-4 的 70%左右,甚至在某些单项任务上的分数比后者更高。

AquilaCode-7B 是智源推出的文本代码生成大模型。它的预训练代码语料来源是一个由 Huggingface 牵头创建的数据集 The Stack,初始版本涵盖了 30 种主流编程语言,数据量超过 3T。智源基于该代码数据集进行抽取、质量过滤,并最终使用超过 200GB 的数据进行训练。

与 OpenAI 编码大模型 Codex-12B 相比,AquilaCode HumanEval pass@1 上的结果接近,并在近期有望超越。更重要的是,智源 AquilaCode 的参数量不到 Codex-12B 的 1/2,做到了用更小的模型实现了接近后者的评测结果。与 DeepMind AlphaCode 1B 、CodeGeeX 等一系列开源代码模型相比,智源 AquilaCode 都已经明显超越。

得益于 Aquila 基础模型的强大能力,AquilaCode-7B 模型在使用更少训练数据和训练参数的情况下,成为目前支持中英双语、性能最好的开源代码模型。如下为代码生成动图演示示例:


AquilaCode-7B 同时支持不同芯片架构的模型训练,并分别在英伟达和国产芯片上完成了代码模型的训练,推动芯片创新和百花齐放。

可信可靠、全面客观的大模型评测体系

建立大模型评测体系至关重要。一方面在学术上可以拉动大模型创新,构建衡量大模型能力和质量的尺子。另一方面在产业上,对于绝大多数无力研发和构建大模型尤其是基础大模型的企业而言,他们在选择使用大模型时更需要一个可信可靠、全面客观的评测体系。

FlagEval(天秤)希望通过建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能。同时探索利用 AI 方法实现对主观评测的辅助,大幅提升评测的效率和客观性。FlagEval(天秤)评测平台已经开放,提供在线和离线评测目前已支持英伟达、寒武纪、昆仑、昇腾等多种芯片架构,以及 PyTorch、MindSpore 深度学习框架。

开放地址:http://flageval.baai.ac.cn

大模型评测并不容易。林咏华指出了面临的四大难点,一是快速发展的大模型给评测带来了越来越大的挑战,以往语言模型评测更多是从理解能力出发;二是大模型生成能力的评测主要依赖人类评分,不仅效率低,客观性及评测质量很难保持一致;三是现在大模型趋向于认知模型,但认知边界很难确定,用人类考题评测模型认知能力往往易出现偏差;四是有时需要在一些情况下考虑大模型的心智能力,包括对复杂意图、复杂场景的理解以及情绪和鉴别能力,这些更加难以评测。

FlagEval(天秤)创新性地构建了「能力 - 任务 - 指标」的三维评测框架,细粒度地刻画基础模型的认知能力边界,呈现可视化评测结果。目前提供 30 + 能力、5 种任务、4 大类指标共 600 + 维全面评测,任务维度当前包括 22 个主客观评测数据集和 84433 道题目,更多维度的评测数据集正在陆续集成。天秤还将持续探索语言大模型评测与心理学、教育学、伦理学等社会学科的交叉研究,以期更加科学、全面地评价语言大模型:


目前 FlagEval 已经覆盖语言、多模态两大领域的大模型评测,后续覆盖视觉、语音领域。第一期已推出大语言模型评测体系、开源多语言文图大模型评测工具 mCLIP-Eval 和开源文图生成评测工具 ImageEval。下图为mCLIP-Eval的评测演示。


FlagEval 首创可持续大模型评测辅助模型训练新范式,打造自动化评测与自适应评测结合的机制,帮助模型研发团队实现 “以评测结果为指导” 的高效训练。这种新范式实现了以大模型评测带动训练的效果。“是骡子是马”只有评测比较过后才更有说服力。


FlagEval(天秤)面向的人群包括大模型开发者和使用者,前者将模型接入系统进行自动评测,后者则可以是个人、高校和企业。就价值而言,大模型的全面评测衡量可以帮助各个开发团队了解自身模型薄弱之处,推动进一步技术创新。此外全面客观的评测还能加速大模型产业落地步伐。

FlagEval(天秤)大语言评测体系及开放平台是「科技创新 2030」旗舰项目重要课题,合作共建单位包括北大、北航、北师大、北邮、闽江学院、南开等高校和中科院自动化所、中国电子技术标准化研究院等科研院所,定期发布权威评测榜单。


相关文章
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
当语言遇见智慧火花:GPT家族历代模型大起底,带你见证从平凡到卓越的AI进化奇迹!
【10月更文挑战第6天】随着自然语言处理技术的进步,GPT系列模型(Generative Pre-trained Transformers)成为该领域的明星。从GPT-1的开创性工作,到GPT-2在规模与性能上的突破,再到拥有1750亿参数的GPT-3及其无需微调即可执行多种NLP任务的能力,以及社区驱动的GPT-NeoX,这些模型不断进化。虽然它们展现出强大的语言理解和生成能力,但也存在如生成错误信息或偏见等问题。本文将对比分析各代GPT模型的特点,并通过示例代码展示其部分功能。
105 2
|
3月前
|
机器学习/深度学习 算法 PyTorch
PyTorch团队首发技术路线图,近百页文档披露2024下半年发展方向
【8月更文挑战第2天】PyTorch团队首度公布了详尽的技术路线图,规划了2024年下半年的发展蓝图。这份近100页的文档聚焦四大核心领域:性能提升,包括算法优化及硬件支持;易用性改进,旨在简化API并增强文档;生态系统建设,扩展硬件兼容性和框架集成;研究支持,提供丰富的工具促进学术探索。尽管前景光明,但仍面临持续优化、用户体验平衡、生态建设和跟踪科研进展等挑战。[原文链接](https://dev-discuss.pytorch.org/t/meta-pytorch-team-2024-h2-roadmaps/2226)
87 8
|
5月前
|
机器学习/深度学习 人工智能 算法
清华、华为等提出iVideoGPT:专攻交互式世界模型
【6月更文挑战第6天】清华和华为团队联合推出iVideoGPT,这是一种创新的交互式世界模型,旨在解决视频生成模型的互动性和扩展性挑战。iVideoGPT采用可扩展的自回归变换器框架,整合多模态信号,通过预测标记序列提升智能体交互体验。模型利用压缩标记技术处理高维视觉数据,预训练于大量人类和机器人操控轨迹,适用于视频预测、视觉规划等任务,展现出与顶级方法相当的性能。尽管存在数据多样性、长视频处理和高分辨率视频预测等问题,iVideoGPT仍展现了在视觉机器人操控等领域的巨大潜力。[论文链接](https://arxiv.org/pdf/2405.15223)
58 1
|
2月前
|
机器学习/深度学习 人工智能 开发者
谷歌推世界首个AI游戏引擎,2000亿游戏产业恐颠覆!0代码生成游戏,老黄预言成真
【9月更文挑战第22天】谷歌近日推出的AI游戏引擎GameNGen,作为全球首款神经模型驱动的游戏引擎,引发了广泛关注。该引擎使用户无需编写代码即可生成游戏,并实现了与复杂环境的实时交互,显著提升了模拟质量。在单TPU上,GameNGen能以超20帧/秒的速度流畅模拟经典游戏《DOOM》。这项技术不仅简化了游戏开发流程,降低了成本,还为游戏设计带来了更多可能性。然而,它也可能改变游戏产业的商业模式和创意多样性。无论如何,GameNGen标志着游戏开发领域的一次重大革新。
49 2
|
6月前
|
机器学习/深度学习 存储 自然语言处理
视觉任务微调王道 | 国科大联合阿里巴巴提出Mona,让Adapter成为你的All Need
视觉任务微调王道 | 国科大联合阿里巴巴提出Mona,让Adapter成为你的All Need
168 1
|
6月前
|
存储 人工智能 JSON
全方位碾压chatGPT4的全球最强模型Claude 3发布!速通指南在此!保姆级教学拿脚都能学会!
全方位碾压chatGPT4的全球最强模型Claude 3发布!速通指南在此!保姆级教学拿脚都能学会!
|
机器学习/深度学习 人工智能 搜索推荐
AI歌手:新晋挑战者还是未来主流的替代者?
AI歌手:新晋挑战者还是未来主流的替代者?
|
机器学习/深度学习 人工智能 算法
智源「悟道3.0」大模型系列问世,这次不拼参数,开源开放成为主角(2)
智源「悟道3.0」大模型系列问世,这次不拼参数,开源开放成为主角
321 0
|
存储 人工智能 自然语言处理
爆火论文打造《西部世界》雏形:25个AI智能体,在虚拟小镇自由成长(2)
爆火论文打造《西部世界》雏形:25个AI智能体,在虚拟小镇自由成长
268 0
|
存储 人工智能 自然语言处理
爆火论文打造《西部世界》雏形:25个AI智能体,在虚拟小镇自由成长
爆火论文打造《西部世界》雏形:25个AI智能体,在虚拟小镇自由成长
259 0