赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat(2)

简介: 赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat

SEEChat v1.0 的训练分为两个阶段:第一阶段是图文对齐训练,使用我们之前开源的高质量中文图文对数据集 Zero [7],总共 2300 万样本进行训练;第二阶段是人机对齐训练,使用 miniGPT4+LLAVA 开源的指令微调数据经英 - 中翻译后,对第一阶段训练好的模型进行指令微调。

下图 7~9 是关于 SEEChat v1.0 在图文对话、代码生成和目标分类能力的简单展示。可以看到,SEEChat 一方面继承了 chatGLM 语言模型在对话方面的能力(当然也继承了其缺点),另一方面表现出了令人印象深刻的图文对齐和视觉理解能力。

图 7  SEEChat v1.0 图文对话展示


图 8  SEEChat v1.0 图文对话展示

图 9  SEEChat v1.0 图文对话展示
SEEChat 并不是第一个开源的中文多模态对话模型,同期 5 月份,已经有中科院自动化所的 X-LLM [8] 和清华 KEG 组的 VisualGLM [9] 相继开源。与之相比,SEEChat v1.0 不论在路线选择还是模型结构上与前述两个工作大体相同,只在模型细节和训练数据与方法上存在不同。我们认为,对于当前的浅层融合方案,一个很关键的点在于训练用的数据质量而不是数量。我们在 image captioning 任务上将 SEEChat v1.0 与相关的多个工作进行了对比:

  • 从中文 Zero 数据集中随机选取 1000 张中文互联网图像,已排除训练集数据
  • 使用 ChineseCLIP [10] 计算图文相关性得分(为避免训练数据重叠带来的偏置,我们没有使用自己训练的 R2D2 中文跨模态模型,而是选取了第三方训练的跨模态模型进行图文相关性得分的评价)
  • 上图为七种公开方法(我们将数据原生的互联网文本做为其中一种方法看待)的图文相关性得分胜出情况


可以看到,使用高质量图文数据集 Zero 训练的 SEEChat v1.0,胜出率甚至大比例超过原生文本。

图 10  不同模型在 Image Captioning 任务上的对比
未来的工作

SEEChat 项目包含两个版本:内部闭源版本使用企业内部数据训练,主打业务生产力;外部开源版本使用公开数据训练,主打能力展示和社区影响。目前 SEEChat v1.0 的内部版本已在集团内部业务落地,并在 5 月 31 日以 “360 智脑 - CV 多模态大模型” 的品牌对外发布。

如前所述,SEEChat 项目的重点是将视觉能力与已有的 LLM 模型相融合,打造侧重视觉能力的多模态语言模型 MLLM,v1.0 验证了基础的图文对齐和视觉理解能力,接下来我们将逐步为 MLLM 添加目标检测能力、跨模态能力以及开放词表的目标检测与识别能力,模态融合方案也将从浅层融合向深层融合过渡,敬请期待。

作者简介
冷大炜:360人工智能研究院视觉引擎部负责人,目前带领研究院视觉团队在多模态大模型,AIGC,跨模态图文学习,开放世界目标检测,开放词表视频分析,AIoT等方向进行前沿探索和工业落地工作。

参考文献

[1] Huang, Shaohan, et al. "Language is not all you need: Aligning perception with language models." arXiv preprint arXiv:2302.14045 (2023).[2] Driess, Danny, et al. "Palm-e: An embodied multimodal language model." arXiv preprint arXiv:2303.03378 (2023).[3] Alayrac, Jean-Baptiste, et al. "Flamingo: a visual language model for few-shot learning." Advances in Neural Information Processing Systems 35 (2022): 23716-23736.[4] Li, Junnan, et al. "Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models." arXiv preprint arXiv:2301.12597 (2023).[5] Liu, Haotian, et al. "Visual instruction tuning." arXiv preprint arXiv:2304.08485 (2023).[6] Zhu, Deyao, et al. "Minigpt-4: Enhancing vision-language understanding with advanced large language models." arXiv preprint arXiv:2304.10592 (2023).[7] Zero, https://zero.so.com/[8] Chen, Feilong, et al. "X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages." arXiv preprint arXiv:2305.04160 (2023).[9] VisualGLM, https://github.com/THUDM/VisualGLM-6B[10] ChineseCLIP, https://github.com/OFA-Sys/Chinese-CLIP

相关文章
|
1月前
|
机器学习/深度学习 自然语言处理 PyTorch
LLM-Mixer: 融合多尺度时间序列分解与预训练模型,可以精准捕捉短期波动与长期趋势
近年来,大型语言模型(LLMs)在自然语言处理领域取得显著进展,研究人员开始探索将其应用于时间序列预测。Jin等人提出了LLM-Mixer框架,通过多尺度时间序列分解和预训练的LLMs,有效捕捉时间序列数据中的短期波动和长期趋势,提高了预测精度。实验结果显示,LLM-Mixer在多个基准数据集上优于现有方法,展示了其在时间序列预测任务中的巨大潜力。
60 3
LLM-Mixer: 融合多尺度时间序列分解与预训练模型,可以精准捕捉短期波动与长期趋势
|
12天前
|
机器学习/深度学习 人工智能 机器人
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
|
12天前
|
机器学习/深度学习 人工智能 图形学
如何将图形学先验知识融入到人工智能模型中?
如何将图形学先验知识融入到人工智能模型中?
|
9天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
29 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
9天前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
47 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
25天前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
72 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与模型知识库在移动医疗产品中的落地应用
在现代医疗体系中,通义千问大模型与MaxKB知识库的结合,为医生和患者提供了前所未有的支持与便利。该系统通过实时问答、临床决策辅助、个性化学习和患者教育等功能,显著提升了诊疗效率和患者满意度。实际应用如乐问医学APP展示了其强大优势,但数据隐私和安全问题仍需关注。
32 0
|
8天前
|
机器学习/深度学习 人工智能 物联网
通义灵码在人工智能与机器学习领域的应用
通义灵码不仅在物联网领域表现出色,还在人工智能、机器学习、金融、医疗和教育等领域展现出广泛应用前景。本文探讨了其在这些领域的具体应用,如模型训练、风险评估、医疗影像诊断等,并总结了其提高开发效率、降低门槛、促进合作和推动创新的优势。
通义灵码在人工智能与机器学习领域的应用
|
8天前
|
人工智能 算法 安全
人工智能在医疗诊断中的应用与前景####
本文旨在探讨人工智能(AI)技术在医疗诊断领域的应用现状、面临的挑战以及未来的发展趋势。随着科技的不断进步,AI技术正逐步渗透到医疗行业的各个环节,尤其在提高诊断准确性和效率方面展现出巨大潜力。通过分析当前AI在医学影像分析、疾病预测、个性化治疗方案制定等方面的实际应用案例,我们可以预见到一个更加智能化、精准化的医疗服务体系正在形成。然而,数据隐私保护、算法透明度及伦理问题仍是制约其进一步发展的关键因素。本文还将讨论这些挑战的可能解决方案,并对AI如何更好地服务于人类健康事业提出展望。 ####
|
7天前
|
机器学习/深度学习 人工智能 算法
人工智能在医疗诊断中的应用与挑战
本文探讨了人工智能(AI)在医疗诊断领域的应用及其面临的挑战。随着技术的不断进步,AI已经在医学影像分析、疾病预测和个性化治疗等方面展现出巨大潜力。然而,数据隐私、算法透明度以及临床整合等问题仍然是亟待解决的关键问题。本文旨在通过分析当前AI技术在医疗诊断中的具体应用案例,探讨其带来的优势和潜在风险,并提出相应的解决策略,以期为未来AI在医疗领域的深入应用提供参考。
40 3

热门文章

最新文章

下一篇
无影云桌面