寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM-阿里云开发者社区

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

2024-07-11 176

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【7月更文挑战第10天】【寒武纪1号】- 谢赛宁、Yann LeCun团队发布开源多模态LLM，含8B至34B规模模型，创新空间视觉聚合器(SVA)提升视觉-语言集成，建立新基准CV-Bench及大规模训练数据集Cambrian-7M。在多模态任务中表现出色，尤其在高分辨率图像处理上，但面临高分辨率信息处理和部分视觉任务评估的局限。[链接](https://arxiv.org/pdf/2406.16860)

来自纽约大学的谢赛宁（Saining Xie）和Yann LeCun领导的团队最近发布了名为寒武纪1号（Cambrian-1）的多模态大型语言模型（MLLM）。这项研究旨在解决当前多模态LLM在视觉理解和语言理解方面的局限性，并推动多模态LLM在真实世界场景中的应用。

寒武纪1号是一系列多模态LLM的集合，包括8B、13B和34B三种不同规模的模型。这些模型旨在通过结合视觉和语言信息，实现更强大的多模态理解和生成能力。

首先，寒武纪1号引入了一种名为“空间视觉聚合器”（SVA）的新型连接器设计，用于将视觉特征与LLM进行集成。SVA通过在LLM的不同层之间多次聚合视觉信息，并引入空间归纳偏置，实现了更灵活和高效的视觉信息集成。

其次，寒武纪1号团队对现有的多模态LLM基准进行了深入分析，并提出了一种名为CV-Bench的新基准。CV-Bench旨在通过将经典的视觉任务重新表述为视觉问答（VQA）问题，更全面地评估多模态LLM的视觉理解能力。

此外，寒武纪1号团队还对多模态LLM的训练数据进行了深入研究，并提出了一种名为Cambrian-7M的大规模、高质量的训练数据集。该数据集通过平衡不同数据源的比例、过滤低质量数据和添加系统提示等方式进行了精心设计，以改善多模态LLM的训练效果。

在实验中，寒武纪1号在多个多模态LLM基准上取得了最先进的性能，包括在OCR和ChartQA等高分辨率图像处理任务上的显著改进。此外，寒武纪1号还在一些真实世界的应用场景中进行了测试，如图像描述生成和视觉问答，并展示了其在处理复杂视觉信息方面的潜力。

然而，寒武纪1号也存在一些局限性。首先，尽管SVA在聚合视觉信息方面取得了改进，但仍然存在信息丢失的风险，特别是在处理高分辨率图像时。其次，尽管CV-Bench在评估多模态LLM的视觉理解能力方面取得了进展，但仍然存在一些未被覆盖的视觉任务，如视频理解和三维场景理解。

论文地址：https://arxiv.org/pdf/2406.16860

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

热门文章

最新文章

相关课程

相关电子书

相关实验场景