赋予LLM视觉理解能力，360人工智能研究院开源中文多模态对话模型SEEChat（2）-阿里云开发者社区

赋予LLM视觉理解能力，360人工智能研究院开源中文多模态对话模型SEEChat（2）

2023-07-02 170

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 赋予LLM视觉理解能力，360人工智能研究院开源中文多模态对话模型SEEChat

SEEChat v1.0 的训练分为两个阶段：第一阶段是图文对齐训练，使用我们之前开源的高质量中文图文对数据集 Zero [7]，总共 2300 万样本进行训练；第二阶段是人机对齐训练，使用 miniGPT4+LLAVA 开源的指令微调数据经英 - 中翻译后，对第一阶段训练好的模型进行指令微调。

下图 7~9 是关于 SEEChat v1.0 在图文对话、代码生成和目标分类能力的简单展示。可以看到，SEEChat 一方面继承了 chatGLM 语言模型在对话方面的能力（当然也继承了其缺点），另一方面表现出了令人印象深刻的图文对齐和视觉理解能力。

图 7 SEEChat v1.0 图文对话展示

图 8 SEEChat v1.0 图文对话展示

图 9 SEEChat v1.0 图文对话展示
SEEChat 并不是第一个开源的中文多模态对话模型，同期 5 月份，已经有中科院自动化所的 X-LLM [8] 和清华 KEG 组的 VisualGLM [9] 相继开源。与之相比，SEEChat v1.0 不论在路线选择还是模型结构上与前述两个工作大体相同，只在模型细节和训练数据与方法上存在不同。我们认为，对于当前的浅层融合方案，一个很关键的点在于训练用的数据质量而不是数量。我们在 image captioning 任务上将 SEEChat v1.0 与相关的多个工作进行了对比：

从中文 Zero 数据集中随机选取 1000 张中文互联网图像，已排除训练集数据
使用 ChineseCLIP [10] 计算图文相关性得分（为避免训练数据重叠带来的偏置，我们没有使用自己训练的 R2D2 中文跨模态模型，而是选取了第三方训练的跨模态模型进行图文相关性得分的评价）
上图为七种公开方法（我们将数据原生的互联网文本做为其中一种方法看待）的图文相关性得分胜出情况

可以看到，使用高质量图文数据集 Zero 训练的 SEEChat v1.0，胜出率甚至大比例超过原生文本。

图 10 不同模型在 Image Captioning 任务上的对比
未来的工作

SEEChat 项目包含两个版本：内部闭源版本使用企业内部数据训练，主打业务生产力；外部开源版本使用公开数据训练，主打能力展示和社区影响。目前 SEEChat v1.0 的内部版本已在集团内部业务落地，并在 5 月 31 日以 “360 智脑 - CV 多模态大模型” 的品牌对外发布。

如前所述，SEEChat 项目的重点是将视觉能力与已有的 LLM 模型相融合，打造侧重视觉能力的多模态语言模型 MLLM，v1.0 验证了基础的图文对齐和视觉理解能力，接下来我们将逐步为 MLLM 添加目标检测能力、跨模态能力以及开放词表的目标检测与识别能力，模态融合方案也将从浅层融合向深层融合过渡，敬请期待。

作者简介
冷大炜：360人工智能研究院视觉引擎部负责人，目前带领研究院视觉团队在多模态大模型，AIGC，跨模态图文学习，开放世界目标检测，开放词表视频分析，AIoT等方向进行前沿探索和工业落地工作。

参考文献

[1] Huang, Shaohan, et al. "Language is not all you need: Aligning perception with language models." arXiv preprint arXiv:2302.14045 (2023).[2] Driess, Danny, et al. "Palm-e: An embodied multimodal language model." arXiv preprint arXiv:2303.03378 (2023).[3] Alayrac, Jean-Baptiste, et al. "Flamingo: a visual language model for few-shot learning." Advances in Neural Information Processing Systems 35 (2022): 23716-23736.[4] Li, Junnan, et al. "Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models." arXiv preprint arXiv:2301.12597 (2023).[5] Liu, Haotian, et al. "Visual instruction tuning." arXiv preprint arXiv:2304.08485 (2023).[6] Zhu, Deyao, et al. "Minigpt-4: Enhancing vision-language understanding with advanced large language models." arXiv preprint arXiv:2304.10592 (2023).[7] Zero, https://zero.so.com/[8] Chen, Feilong, et al. "X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages." arXiv preprint arXiv:2305.04160 (2023).[9] VisualGLM, https://github.com/THUDM/VisualGLM-6B[10] ChineseCLIP, https://github.com/OFA-Sys/Chinese-CLIP

赋予LLM视觉理解能力，360人工智能研究院开源中文多模态对话模型SEEChat（2）

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

赋予LLM视觉理解能力，360人工智能研究院开源中文多模态对话模型SEEChat（2）

热门文章

最新文章

相关课程

相关电子书

相关实验场景