智源「悟道3.0」大模型系列问世,这次不拼参数,开源开放成为主角(2)

简介: 智源「悟道3.0」大模型系列问世,这次不拼参数,开源开放成为主角

「悟道・视界」向着通用视觉迈进


与语言大模型一样,视觉大模型近年来也进入了井喷阶段。对于视觉领域涵盖的分类、定位、检测和分割等多种任务,既出现了在某项任务上实现极致效果的大模型(如面向分割任务的 SAM、SEEM),也有追求一举解决多个或全部 CV 任务的通用视觉大模型(如 Meta 的 DINOv2)。

此次智源发布了「悟道・视界」视觉大模型系列,由悟道 3.0 的视觉大模型团队打造,涵盖了国际领先的六大成果,包括在多模态序列中补全一切的多模态大模型 Emu、最强十亿级视觉基础模型 EVA、性能最强开源 CLIP 模型 EVA-CLIP、首创了「上下文图像学习」技术路径的通用视觉模型 Painter、一通百通、分割一切的视界通用分割模型、以及首个零样本视频编辑方法 vid2vid -zero。前五个为基础模型,后一个为应用技术。

「悟道・视界」聚焦视觉和多模态上下文学习,创新视觉和多模态领域的 Prompt 工程,取得了零样本学习性能的新突破。未来的应用可以拓展到自动驾驶、智能机器人等领域,为这些领域带来更多可能性和创新。

首先是一个接受多模态输入、产生多模态输出的多模态大模型 Emu。

通过学习图文、交错图文、交错视频文本等海量多模态序列,实现在图像、文本和视频等不同模态间的理解、推理和生成。

训练完成后,Emu 能在多模态序列的上下文中补全一切,实现多轮图文对话、视频理解、精准图像认知、文图生成、多模态上下文学习、视频问答和图图生成等多模态能力。


然后是最强十亿级视觉基础模型 EVA[1]。通用视觉大模型在更高效的同时也要更简单, 这就必须解决视觉问题的两大关键点:语义学习和几何结构学习。

因此 EVA 结合最强语义学习(CLIP)和最强几何结构学习(MIM),只使用标准 ViT 模型的情况下将规模扩大到了十亿参数进行训练,在 ImageNet 分类、COCO 检测分割、Kinetics 视频分类等广泛的视觉感知任务中取得当时最强性能。该研究被接收为 CVPR 2023 highlight 论文。

EVA 及性能概览。

再者是性能最强的 CLIP 模型 EVA-CLIP。CLIP(Contrastive Language-Image Pre-training)是一种视觉 - 语言基础模型, 具有强大的零样本迁移能力,并有可能增强多模态和单模态视觉任务。并且作为零样本学习基础模型,多模态预训练 CLIP 广受业界认可。

EVA-CLIP 是一系列提高 CLIP 训练效率和效果的模型,基于通用视觉模型 EVA 开发,结合了新的表示学习以及优化、增强技术,可以降低训练成本、稳定训练过程和提升零样本性能。智源视觉团队于 2022 年发布了 EVA-CLIP 1B 版本,并于 2023 年初发布了 EVA-CLIP 5B 版本 [2],创造了零样本学习性能新水平,超越了此前最强的 OpenCLIP 模型,在 ImageNet1K 零样本 top1 达到最高的 82.0% 准确率。

此外,EVA-CLIP 相比其他方法更高效,做到了更少时间、更低成本。例如训练 EVA-CLIP-B/16,在 32K batch size 设置下,用 16 个英伟达 40GB-A100 的 GPU 卡,80 小时就能完成 30 亿图文对的训练。

图左为 CLIP 模型(EVA-CLIP 和 OpenCLIP)的 ImageNet-1K 零样本分类性能比较,图右为 EVA-CLIP 在 27 个数据集上的零样本分类性能。

接着是一通百通、分割一切的视界通用分割模型(即 SegGPT),它是智源通用视觉模型 Painter 的衍生模型。

Painter 首创「上下文图像学习」技术路径,具备了较强的上下文学习能力。用户输入 prompt 即可完成对应视觉任务。该研究[3]同样被 CVPR 2023 会议接收。

基于 Painter,视界通用分割模型 [4] 在图像分割领域点亮视觉 GPT 曙光。它与 Meta 的分割一切模型(SAM)同一时间发布,不过二者采用的方法不同。SAM 侧重一触即通, 通过一个点或边界框,在待预测图片上给出交互提示并识别分割画面上的指定物体。视界充分利用其强大的视觉上下文推理能力,只需提供一个或几个示例图像和视觉 prompt,模型即可自动推理并「有样学样」完成类似分割任务,具体可见如下示例。

标注出一个画面中的彩虹(上),即可批量化分割其他画面中的彩虹(下)。

从影像中分割出各种各样的对象,是视觉智能的关键里程碑,而视界、SAM 等分割模型的推出加速了向通用视觉的发展。对此,黄铁军指出,图像或视频分割只是「视界」通用视觉模型的外在表现能力之一。当未来应用到自动驾驶和机器人等更复杂的通用视觉场景时,「视界」非常有潜力凭借其分割一切以及强大的分辨能力加速这些实体智能产业的发展。

最后是零样本视频编辑技术 vid2vid-zero [5]。除了图像领域的生成、编辑任务之外,智源同样探索高效、低成本的自动视频编辑技术。已有文本驱动的视频编辑方法严重依赖在大量文本 - 视频数据上调整预训练好的视频扩散模型,因而需要庞大的计算资源,导致人工数据标注和计算成本颇高。

对此智源提出了这种简单高效的零样本视频编辑方法,亮点在于首次无需对视频进行额外训练,利用注意力机制动态运算的特点,结合现有图像扩散模型,实现可指定属性的视频编辑。对于现实世界的视频,该方法在编辑属性、主题和地点等方面都展现出了很好的效果。

你只需要上传一段视频,然后输入编辑文本 prompt,就能得到 AI 美化的创意大片。如下为一个动图演示示例,图左为原始视频(一个跑步的男子),图右为编辑文本 prompt 后的生成视频(一个在纽约跑步的男子)。可以看到,生成视频不仅增加了一些元素,风格也发生了改变(动漫风格)。


与「悟道・天鹰」(Aquila)语言大模型系列一样,所有这些「悟道・视界」视觉大模型都向公众开源。

用开源开放打造不一样的大模型品牌

前段时间,一位谷歌研究人员在泄露的内部文件中表示,在大模型时代,虽然看起来是 OpenAI 和谷歌你追我赶,但悄然崛起的第三方力量或许将成为真正的赢家。这个第三方力量就是开源。无论是开源模型、算法还是开源社区,它们的力量正在踏破大模型门槛。

作为一个非盈利的平台型研究机构,智源始终通过开源开放的方式发布系列大模型,包括数据集、算法、工具等。此次全面开源的悟道 3.0 大模型系列更充分展现出了智源坚持开源开放的决心。林咏华表示,智源希望以开源开放为出发点打造大模型基础底座,促进大模型科研创新,加速产业落地。其中开源更是采用商用许可协议,避免数据和算法等社会资源的浪费。

与此同时,智源正在通过 FlagOpen 飞智大模型技术开源体系践行着开源开放的理念。这套开源体系涵盖了大模型算法、模型、数据、工具和评测等重要组成部分。

FlagOpen 开源平台入口:https://flagopen.baai.ac.cn/#/home

其中 FlagAI 大模型算法开源项目是 FlagOpen 的核心部分,集成了全球各种主流大模型算法技术。语言大模型 OPT、T5、视觉大模型 ViT、Swin Transformer 以及多模态大模型 CLIP 等多个领域明星模型都在该项目中收录。在本次智源大会,悟道・天鹰 Aquila 语言大模型已经加入到 FlagAI 的开源仓库。随后,悟道 3.0 视觉基础模型 EVA、视觉通用多任务模型 Painter 等将陆续开源至 FlagAI。


FlagOpen 开源体系还包括面向多种 AI 硬件的一体化评测引擎 FlagPerf、上文介绍的多领域多维度开源大模型评测体系 FlagEval、开箱即用且易于扩展的数据工具开源项目 FlagData、应用文生图和文生音乐等 AI 模型支持艺术创作的开源项目集合 FlagStudio、基于 Scala 开发的轻量级高并发微服务框架 FlagBoot。

此外 FlagOpen 开源体系正逐步实现对多种深度学习框架、AI 芯片的完整支持,构建更繁荣的 AI 大模型软硬件生态。总之,在人工智能下个十年,智源希望以该开源体系为基础,用开源的力量打造属于大模型时代的「新 Linux 生态」。

通往 AGI 没有那么简单,但并非不可实现

在 AI 大模型时代,通用人工智能(AGI)无疑是一个逃不开的话题。尤其自近半年来 OpenAI 先后发布 ChatGPT、GPT-4 以来,很多人都认为 AGI 的大门已经被敲开。通用语言大模型已展现出的超强理解、推理以及涌现能力,真的就能通向 AGI 吗?

在黄铁军看来,ChatGPT 等语言大模型的确可以说敲开了 AGI 的大门,它们涌现出的未曾预测到的新能力在某种意义上是 AGI 的一个典型标志。但他也表示,敲开门并不意味着沿着这条路走下去,就一定能实现 AGI。未来 AGI 的实现仅凭大模型显然是不够的,还需要更多技术要素的加入。

在通往 AGI 的漫漫征途中,智源非常注重大模型、类脑智能和具身智能这三条路线。三条路线并不是孤立的,它们相互作用和影响。

首先是最快取得阶段性突破的大模型。得益于蕴含丰富知识和智能的海量高质量数据,大模型迎来了里程碑式的进展即涌现能力,复杂 AI 系统首次自发出现这样的智能现象,成为 AGI 的第一道曙光。但是大模型路线并没有解决 AGI 的所有问题,其涌现出的能力与人脑中的灵感、头脑风暴有着根本差别。想要达到类似于生物或人脑的巧妙智能,仅靠大模型远远不够。这就需要在类脑方向继续发展,包括基础的神经网络结构、信号加工机理等等。

大模型、类脑智能之外的另一个方向是大家谈论较多的具身智能,通过强化学习方法,利用物理实体与环境互动,得到经验和教训,不断调整自身策略。在解决一些真实世界的问题时,必须与环境进行交互。以自动驾驶和机器人为例,物理实体在复杂的环境中感知和行动,最终完成任务。大模型是没有具身的,因此具身智能势必要继续发展。

黄铁军认为,三条路线对于未来的 AGI 发展都是必要的,解决一个问题并不意味着所有问题都迎刃而解。未来必定困难重重且过程注定漫长,三条路线距离终极目标或许仍是「咫尺天涯」。但他对最终实现 AGI 持乐观态度,通过各种各样的方法一步步逼近并最终达到目标。

未来,智源将继续扮演好自己的角色,作为致力于全球领先大模型技术和算法的推出者、大模型及人工智能生态的建设者,始终为国内大模型的技术创新和产业落地发光发热。

参考文献:

[1] https://arxiv.org/search/cs?searchtype=author&query=Fang%2C+Y, etal. EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

[2] Quan Sun, etal. EVA-CLIP: Improved Training Techniques for CLIP at Scale

[3] Xinlong Wang, etal. Images Speak in Images: A Generalist Painter for In-Context Visual Learning

[4] Xinlong Wang, etal. SegGPT: Segmenting Everything In Context

[5] Wen Wang, etal. Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models

相关文章
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
当语言遇见智慧火花:GPT家族历代模型大起底,带你见证从平凡到卓越的AI进化奇迹!
【10月更文挑战第6天】随着自然语言处理技术的进步,GPT系列模型(Generative Pre-trained Transformers)成为该领域的明星。从GPT-1的开创性工作,到GPT-2在规模与性能上的突破,再到拥有1750亿参数的GPT-3及其无需微调即可执行多种NLP任务的能力,以及社区驱动的GPT-NeoX,这些模型不断进化。虽然它们展现出强大的语言理解和生成能力,但也存在如生成错误信息或偏见等问题。本文将对比分析各代GPT模型的特点,并通过示例代码展示其部分功能。
107 2
|
3月前
|
机器学习/深度学习 算法 PyTorch
PyTorch团队首发技术路线图,近百页文档披露2024下半年发展方向
【8月更文挑战第2天】PyTorch团队首度公布了详尽的技术路线图,规划了2024年下半年的发展蓝图。这份近100页的文档聚焦四大核心领域:性能提升,包括算法优化及硬件支持;易用性改进,旨在简化API并增强文档;生态系统建设,扩展硬件兼容性和框架集成;研究支持,提供丰富的工具促进学术探索。尽管前景光明,但仍面临持续优化、用户体验平衡、生态建设和跟踪科研进展等挑战。[原文链接](https://dev-discuss.pytorch.org/t/meta-pytorch-team-2024-h2-roadmaps/2226)
87 8
|
5月前
|
机器学习/深度学习 人工智能 算法
清华、华为等提出iVideoGPT:专攻交互式世界模型
【6月更文挑战第6天】清华和华为团队联合推出iVideoGPT,这是一种创新的交互式世界模型,旨在解决视频生成模型的互动性和扩展性挑战。iVideoGPT采用可扩展的自回归变换器框架,整合多模态信号,通过预测标记序列提升智能体交互体验。模型利用压缩标记技术处理高维视觉数据,预训练于大量人类和机器人操控轨迹,适用于视频预测、视觉规划等任务,展现出与顶级方法相当的性能。尽管存在数据多样性、长视频处理和高分辨率视频预测等问题,iVideoGPT仍展现了在视觉机器人操控等领域的巨大潜力。[论文链接](https://arxiv.org/pdf/2405.15223)
58 1
|
2月前
|
机器学习/深度学习 人工智能 开发者
谷歌推世界首个AI游戏引擎,2000亿游戏产业恐颠覆!0代码生成游戏,老黄预言成真
【9月更文挑战第22天】谷歌近日推出的AI游戏引擎GameNGen,作为全球首款神经模型驱动的游戏引擎,引发了广泛关注。该引擎使用户无需编写代码即可生成游戏,并实现了与复杂环境的实时交互,显著提升了模拟质量。在单TPU上,GameNGen能以超20帧/秒的速度流畅模拟经典游戏《DOOM》。这项技术不仅简化了游戏开发流程,降低了成本,还为游戏设计带来了更多可能性。然而,它也可能改变游戏产业的商业模式和创意多样性。无论如何,GameNGen标志着游戏开发领域的一次重大革新。
49 2
|
6月前
|
机器学习/深度学习 存储 自然语言处理
视觉任务微调王道 | 国科大联合阿里巴巴提出Mona,让Adapter成为你的All Need
视觉任务微调王道 | 国科大联合阿里巴巴提出Mona,让Adapter成为你的All Need
168 1
|
6月前
|
存储 人工智能 JSON
全方位碾压chatGPT4的全球最强模型Claude 3发布!速通指南在此!保姆级教学拿脚都能学会!
全方位碾压chatGPT4的全球最强模型Claude 3发布!速通指南在此!保姆级教学拿脚都能学会!
|
机器学习/深度学习 人工智能 搜索推荐
AI歌手:新晋挑战者还是未来主流的替代者?
AI歌手:新晋挑战者还是未来主流的替代者?
|
数据采集 机器学习/深度学习 人工智能
智源「悟道3.0」大模型系列问世,这次不拼参数,开源开放成为主角(1)
智源「悟道3.0」大模型系列问世,这次不拼参数,开源开放成为主角
349 0
|
存储 人工智能 自然语言处理
爆火论文打造《西部世界》雏形:25个AI智能体,在虚拟小镇自由成长
爆火论文打造《西部世界》雏形:25个AI智能体,在虚拟小镇自由成长
259 0
|
存储 人工智能 自然语言处理
爆火论文打造《西部世界》雏形:25个AI智能体,在虚拟小镇自由成长(2)
爆火论文打造《西部世界》雏形:25个AI智能体,在虚拟小镇自由成长
268 0