寒武纪1号诞生:谢赛宁Yann LeCun团队发布最强开源多模态LLM

简介: 【7月更文挑战第10天】【寒武纪1号】- 谢赛宁、Yann LeCun团队发布开源多模态LLM,含8B至34B规模模型,创新空间视觉聚合器(SVA)提升视觉-语言集成,建立新基准CV-Bench及大规模训练数据集Cambrian-7M。在多模态任务中表现出色,尤其在高分辨率图像处理上,但面临高分辨率信息处理和部分视觉任务评估的局限。[链接](https://arxiv.org/pdf/2406.16860)

来自纽约大学的谢赛宁(Saining Xie)和Yann LeCun领导的团队最近发布了名为寒武纪1号(Cambrian-1)的多模态大型语言模型(MLLM)。这项研究旨在解决当前多模态LLM在视觉理解和语言理解方面的局限性,并推动多模态LLM在真实世界场景中的应用。

寒武纪1号是一系列多模态LLM的集合,包括8B、13B和34B三种不同规模的模型。这些模型旨在通过结合视觉和语言信息,实现更强大的多模态理解和生成能力。

首先,寒武纪1号引入了一种名为“空间视觉聚合器”(SVA)的新型连接器设计,用于将视觉特征与LLM进行集成。SVA通过在LLM的不同层之间多次聚合视觉信息,并引入空间归纳偏置,实现了更灵活和高效的视觉信息集成。

其次,寒武纪1号团队对现有的多模态LLM基准进行了深入分析,并提出了一种名为CV-Bench的新基准。CV-Bench旨在通过将经典的视觉任务重新表述为视觉问答(VQA)问题,更全面地评估多模态LLM的视觉理解能力。

此外,寒武纪1号团队还对多模态LLM的训练数据进行了深入研究,并提出了一种名为Cambrian-7M的大规模、高质量的训练数据集。该数据集通过平衡不同数据源的比例、过滤低质量数据和添加系统提示等方式进行了精心设计,以改善多模态LLM的训练效果。

在实验中,寒武纪1号在多个多模态LLM基准上取得了最先进的性能,包括在OCR和ChartQA等高分辨率图像处理任务上的显著改进。此外,寒武纪1号还在一些真实世界的应用场景中进行了测试,如图像描述生成和视觉问答,并展示了其在处理复杂视觉信息方面的潜力。

然而,寒武纪1号也存在一些局限性。首先,尽管SVA在聚合视觉信息方面取得了改进,但仍然存在信息丢失的风险,特别是在处理高分辨率图像时。其次,尽管CV-Bench在评估多模态LLM的视觉理解能力方面取得了进展,但仍然存在一些未被覆盖的视觉任务,如视频理解和三维场景理解。

论文地址:https://arxiv.org/pdf/2406.16860

目录
相关文章
|
1月前
|
人工智能 算法 开发者
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
199 10
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
|
15天前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
185 2
|
1月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
299 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
1月前
智谱发布GLM-4.5V,全球开源多模态推理新标杆,Day0推理微调实战教程到!
视觉语言大模型(VLM)已经成为智能系统的关键基石。随着真实世界的智能任务越来越复杂,VLM模型也亟需在基本的多模态感知之外,逐渐增强复杂任务中的推理能力,提升自身的准确性、全面性和智能化程度,使得复杂问题解决、长上下文理解、多模态智能体等智能任务成为可能。
370 0
|
1月前
|
编解码 算法 测试技术
MiniCPM-V4.0开源,多模态能力进化,手机可用,还有最全CookBook!
今天,面壁小钢炮新一代多模态模型 MiniCPM-V 4.0 正式开源。依靠 4B 参数,取得 在 OpenCompass、OCRBench、MathVista 等多个榜单上取得了同级 SOTA 成绩,且 实现了在手机上稳定、丝滑运行。此外,官方也正式开源了 推理部署工具 MiniCPM-V CookBook,帮助开发者面向不同需求、不同场景、不同设备,均可实现开箱即用的轻量、简易部署。
293 0
|
8天前
|
机器学习/深度学习 人工智能 前端开发
通义DeepResearch全面开源!同步分享可落地的高阶Agent构建方法论
通义研究团队开源发布通义 DeepResearch —— 首个在性能上可与 OpenAI DeepResearch 相媲美、并在多项权威基准测试中取得领先表现的全开源 Web Agent。
1147 87
|
9天前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
338 1
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
29天前
|
编解码 自然语言处理
通义万相开源14B数字人Wan2.2-S2V!影视级音频驱动视频生成,助力专业内容创作
今天,通义万相的视频生成模型又开源了!本次开源Wan2.2-S2V-14B,是一款音频驱动的视频生成模型,可生成影视级质感的高质量视频。
392 29
|
1月前
|
数据采集 人工智能 定位技术
分享一个开源的MCP工具使用的AI Agent 支持常用的AI搜索/地图/金融/浏览器等工具
介绍一个开源可用的 MCP Tool Use 通用工具使用的 AI Agent (GitHub: https://github.com/AI-Agent-Hub/mcp-marketplace ,Web App https://agent.deepnlp.org/agent/mcp_tool_use,支持大模型从Open MCP Marketplace (http://deepnlp.org/store/ai-agent/mcp-server) 的1w+ 的 MCP Server的描述和 Tool Schema 里面,根据用户问题 query 和 工具 Tool描述的 相关性,选择出来可以满足

热门文章

最新文章