赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat(1)

简介: 赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat


作者:冷大炜,360 人工智能研究院

刚刚过去的 22 年被媒体誉为 “AIGC 元年”,这一年中 AI 绘画和 chatGPT 相继引爆了全球科技界,成为人工智能领域的两大里程碑事件,特别是 chatGPT 的推出,又重新点燃了人们对通用人工智能 AGI 的新一轮期待,chatGPT 所表现出来的前所未有的逻辑能力和推理能力,让众多 AI 领域的专家和研究人员不禁为之赞叹。与此同时,更多的企业和机构也开始尝试将 chatGPT 应用于自己的业务中,希望通过人工智能的力量来提升工作效率和解决难题。

ChatGPT 是基于 GPT3.5 开发的纯文本单模态的语言模型,对于它的下一代更新,我们之前猜测除了文本能力的继续提升外,从单模态过渡到多模态将是更为关键的一点,今年 3 月 15 日 GPT4 的推出,证实了我们的推测:GPT4 做为新一代的 GPT 模型,增加了对视觉模态输入的支持,这意味着它能够理解图像并进行相应的自然语言生成。

增加了多模态能力的 GPT4 也带来了应用层面的更多可能,比如在电商领域中,商家可以将产品图像输入 GPT4 进行描述生成,从而为消费者提供更加自然的商品介绍;在娱乐领域中,GPT4 可以被用于游戏设计和虚拟角色创造,为玩家带来更加个性化的游戏体验和互动快乐。视觉能力一向被视为一个通用人工智能 AGI 智能体所需必备的基础能力,而 GPT4 则向人们生动展示了融合视觉能力的 AGI 的雏形。

视觉能力融合的方案和优劣对比

实际上 GPT4 并不是第一个将视觉与文本模态相融合的工作,CV、NLP 以及机器人等领域的科研人员长久以来一直在探寻各种方法将多个不同模型的信息相融合的方法,像 VQA、Visual Captioning、Visual Grounding 等都已经是多模态下细分的专业研究领域。

具体到将视觉能力融入语言模型 LLM 的 MLLM(Multimodal Large Language Model),相关的研究路线主要分为两条:一条是原生多模态路线,模型设计从一开始就专门针对多模态数据进行适配设计,代表性的工作有 MSRA 的 KOSMOS-1 [1] 和 Google Robotics 的 PALM-E [2],均在今年 3 月份公开;另一条是单模态专家模型缝合路线,通过桥接层将预训练的视觉专家模型与预训练的语言模型链接起来,代表性的工作有 Deepmind 的 Flamingo [3],Saleforce 的 BLIP-2 [4],以及近期的 LLAVA [5] 和 miniGPT4 [6] 等工作。

图 1  MLLM 代表性工作时间线

以 KOSMOS-1 和 PALM-E 为代表的原生多模态路线,模型结构主体均为 Transformer 堆叠。下图为 KOSMOS-1 的模型结构和训练方案,其中除了 image encoder 部分使用的是预训练的 CLIP ViT-L/14 外,模型主体 MLLM 部分是 24 层的 Transformer 堆叠,使用原生的多模态数据从头训练。

多模态数据由三部分组成:a) 纯文本,以 Pile 和 Common Crawl 为主;b) image-text pair 数据,以 LAION-2B,LAION-400M,COYO-700M, and Conceptual Captions 为主;c) 图文混合数据(Interleaved Image-Text Data),包含 71M 页图文网页数据。通过将 image embedding 以如下格式与 text embedding 相连缀:<s><image>Image Embedding </image>WALL-E giving potted plant to EVE. </s>,KOSMOS-1 用自回归 loss 对图文数据进行统一建模。

图 2  KOSMOS-1 模型结构与训练方案
PALM-E 与 KOSMOS-1 相比,模型结构和对多模态数据的建模方式基本相同,下图 3 为 PALM-E 的模型结构和训练方案,其中 < emb > 为机器人的状态估计向量。与 KOSMOS-1 相比最大的不同在于,PALM-E 使用单模态语言模型 PALM 的权重对模型进行了初始化。

图 3  PALM-E 模型结构与训练方案

原生多模态路线的优势在于,模型结构原生适配多模态数据,在数据量充足的情况下效果优秀,相关领域的经验也表明这种方式的性能上限更高,但缺点也很明显,不能充分复用各个单模态领域的已有成果,训练需要的计算资源和数据资源都非常大。

与原生多模态路线相对的,以 Flamingo、BLIP-2、LLAVA/miniGPT4 为代表的单模态专家模型缝合路线,从一开始模型的设计思路就是尽可能复用各个单模态领域的已有成果特别是近期发展迅速的 LLM 的预训练模型。Flamingo 是 Deepmind 在 22 年 11 月发表的工作,在 freeze 住 vision encoder 和 LM 的基础上,通过在 LM 中插入多个 cross-attention 层来实现视觉信息与文本信息的对齐和联合学习。

图 4  Flamingo 模型结构与训练方案

与 KOSMOS-1 相比,Flamingo 这种缝合方案充分利用了 CV 领域和 NLP 领域的已有成果,vision encoder 和 LM 均不需要训练,只需要对做为不同模态信息之间做为桥接的 cross-attention 层(图 4 中的 GATED XATTN-DENSE)进行训练,因此至少在模型训练成本上就有很明显的优势。

而 23 年 1 月 salesforce 发表的 BLIP-2 工作以及后续衍生的 LLAVA、miniGPT4 等工作则将这一思路进一步简化到 vision encoder 和 LM 之间只通过单个桥接层进行链接,下图 5 是 BLIP-2 的模型结构,其中视觉侧和文本侧分别使用预训练的 CLIP ViT-G/14 模型和 FLAN-T5 模型,仅中间的起桥接作用的 Q-Former 参与训练,训练需要的成本和数据量进一步降低,BLIP-2 的训练数据量仅 129M,16 卡 A100 训练 9 天。

后来的 LLAVA 工作更是将这一思路简化到极致,仅通过一个 projection layer 将 CLIP ViT-L/14 和 Vicuna 语言模型缝合在一起,训练数据仅用了 595K 图文对以及 158K 指令微调数据。miniGPT4 则是在复用 BLIP-2 的 vision encoder + Q-Former 的基础上,通过一层 project layer 缝合了 Vicuna 语言模型,训练数据仅用了 5M 的图文对数据 + 3.5K 的指令微调数据。

图 5  BLIP-2 模型结构

与原生多模态路线相比,单模态专家模型缝合路线最明显的优势是可以充分复用各个单模态领域的已有成果,成本低,见效快,有研究人员猜测 GPT4 可能也是基于缝合路线实现的视觉理解能力。但基于缝合路线的缺陷也显而易见,尤其像 BLIP-2、LLAVA、miniGPT4 这样简单的浅层融合方案,最终训练得到的 MLLM 模型能力通常只能做单轮或多轮对话,不具备像 Flamingo 这种深层融合方案以及 KOSMOS-1、PALM-E 等原生多模态方案所展现出的多模态 in-context learning 能力。

SEEChat 多模态对话模型

SEEChat 项目(https://github.com/360CVGroup/SEEChat)的重点是将视觉能力与已有的 LLM 模型相融合,打造侧重视觉能力的多模态语言模型 MLLM。在多模态能力的实现路线上,我们选择了能够充分复用不同领域已有成果的单模态专家模型缝合路线(Single-modal Experts Efficient integration), 这也是 SEEChat 项目的命名来源。

SEEChat v1.0 的模型结构如下图 6 所示,通过 projection layer 桥接层,将 vision encoder: CLIP-ViT-L/14 与开源的中文 LM:chatGLM6B 缝合到一起。

图 6  SEEChat 模型结构

相关文章
|
8月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
1216 120
|
人工智能 自然语言处理 测试技术
能够双向推理的LLM!Dream-7B:港大联合华为开源的扩散推理模型,能够同时考虑前后文信息
Dream-7B是由香港大学与华为诺亚方舟实验室联合研发的开源扩散大语言模型,采用独特的掩码扩散范式,在文本生成、数学推理和代码编写等任务中展现出卓越性能。
712 3
能够双向推理的LLM!Dream-7B:港大联合华为开源的扩散推理模型,能够同时考虑前后文信息
|
8月前
|
机器学习/深度学习 算法 物联网
Google开源Tunix:JAX生态的LLM微调方案来了
Tunix是Google推出的基于JAX的LLM后训练库,支持微调、强化学习与知识蒸馏,集成Flax NNX,主打TPU优化与模块化设计,支持QLoRA等高效训练方法,适用于高性能分布式训练场景。
538 13
Google开源Tunix:JAX生态的LLM微调方案来了
|
人工智能 数据可视化 API
36.7K star!拖拽构建AI流程,这个开源LLM应用框架绝了!
`Flowise` 是一款革命性的低代码LLM应用构建工具,开发者通过可视化拖拽界面,就能快速搭建基于大语言模型的智能工作流。该项目在GitHub上线不到1年就斩获**36.7K星标**,被开发者誉为"AI时代的乐高积木"。
1045 8
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
37_开源LLM:LLaMA与Mistral的突破_深度解析
在人工智能领域,2025年已经成为开源大语言模型的黄金时代。从Meta的LLaMA系列到欧洲初创公司Mistral AI的创新突破,开源LLM正在重塑整个AI生态系统的格局。截至2025年4月,Meta的LLaMA系列已成为全球下载量最高、社区使用最活跃的开源大语言模型之一,并被集成于数百个学术项目、创业平台和AI产品之中
897 1
|
机器学习/深度学习 人工智能 算法
RAGEN:RL训练LLM推理新范式!开源强化学习框架让Agent学会多轮决策
RAGEN是一个基于StarPO框架的开源强化学习系统,通过马尔可夫决策过程形式化Agent与环境的交互,支持PPO、GRPO等多种优化算法,显著提升多轮推理训练的稳定性。
1664 5
RAGEN:RL训练LLM推理新范式!开源强化学习框架让Agent学会多轮决策
|
人工智能 自然语言处理 数据可视化
89.4K star!这个开源LLM应用开发平台,让你轻松构建AI工作流!
Dify 是一款开源的 LLM 应用开发平台,通过直观的可视化界面整合 AI 工作流、RAG 管道、智能代理等功能,助你快速实现从原型到生产的跨越。支持本地部署和云端服务,提供企业级功能与完整 API 接口。
946 4
|
机器学习/深度学习 存储 人工智能
AI职场突围战:夸克应用+生成式人工智能认证,驱动“打工人”核心竞争力!
在AI浪潮推动下,生成式人工智能(GAI)成为职场必备工具。文中对比了夸克、豆包、DeepSeek和元宝四大AI应用,夸克以“超级入口”定位脱颖而出。同时,GAI认证为职场人士提供系统学习平台,与夸克结合助力职业发展。文章还探讨了职场人士如何通过加强学习、关注技术趋势及培养合规意识,在AI时代把握机遇。
|
机器学习/深度学习 人工智能 自然语言处理
人工智能应用领域有哪些
本文全面探讨了人工智能(AI)的应用领域和技术核心,涵盖医疗、交通、金融、教育、制造、零售等多个行业,并分析了AI技术的局限性及规避策略。同时,介绍了生成式人工智能认证项目的意义与展望。尽管AI发展面临数据依赖和算法可解释性等问题,但通过优化策略和经验验证,可推动其健康发展。未来,AI将在更多领域发挥重要作用,助力社会进步。
|
机器学习/深度学习 人工智能 运维
人工智能在事件管理中的应用
人工智能在事件管理中的应用
436 21