寒武纪1号诞生:谢赛宁Yann LeCun团队发布最强开源多模态LLM

简介: 【7月更文挑战第10天】【寒武纪1号】- 谢赛宁、Yann LeCun团队发布开源多模态LLM,含8B至34B规模模型,创新空间视觉聚合器(SVA)提升视觉-语言集成,建立新基准CV-Bench及大规模训练数据集Cambrian-7M。在多模态任务中表现出色,尤其在高分辨率图像处理上,但面临高分辨率信息处理和部分视觉任务评估的局限。[链接](https://arxiv.org/pdf/2406.16860)

来自纽约大学的谢赛宁(Saining Xie)和Yann LeCun领导的团队最近发布了名为寒武纪1号(Cambrian-1)的多模态大型语言模型(MLLM)。这项研究旨在解决当前多模态LLM在视觉理解和语言理解方面的局限性,并推动多模态LLM在真实世界场景中的应用。

寒武纪1号是一系列多模态LLM的集合,包括8B、13B和34B三种不同规模的模型。这些模型旨在通过结合视觉和语言信息,实现更强大的多模态理解和生成能力。

首先,寒武纪1号引入了一种名为“空间视觉聚合器”(SVA)的新型连接器设计,用于将视觉特征与LLM进行集成。SVA通过在LLM的不同层之间多次聚合视觉信息,并引入空间归纳偏置,实现了更灵活和高效的视觉信息集成。

其次,寒武纪1号团队对现有的多模态LLM基准进行了深入分析,并提出了一种名为CV-Bench的新基准。CV-Bench旨在通过将经典的视觉任务重新表述为视觉问答(VQA)问题,更全面地评估多模态LLM的视觉理解能力。

此外,寒武纪1号团队还对多模态LLM的训练数据进行了深入研究,并提出了一种名为Cambrian-7M的大规模、高质量的训练数据集。该数据集通过平衡不同数据源的比例、过滤低质量数据和添加系统提示等方式进行了精心设计,以改善多模态LLM的训练效果。

在实验中,寒武纪1号在多个多模态LLM基准上取得了最先进的性能,包括在OCR和ChartQA等高分辨率图像处理任务上的显著改进。此外,寒武纪1号还在一些真实世界的应用场景中进行了测试,如图像描述生成和视觉问答,并展示了其在处理复杂视觉信息方面的潜力。

然而,寒武纪1号也存在一些局限性。首先,尽管SVA在聚合视觉信息方面取得了改进,但仍然存在信息丢失的风险,特别是在处理高分辨率图像时。其次,尽管CV-Bench在评估多模态LLM的视觉理解能力方面取得了进展,但仍然存在一些未被覆盖的视觉任务,如视频理解和三维场景理解。

论文地址:https://arxiv.org/pdf/2406.16860

目录
相关文章
可控细节的长文档摘要,探索开源LLM工具与实践
本文通过将文档分为几部分来解决这个问题,然后分段生成摘要。在对大语言模型进行多次查询后,可以重建完整的摘要。通过控制文本块的数量及其大小,我们最终可以控制输出中的细节级别。
|
28天前
|
数据处理 开发者 异构计算
ComfyUI+多模态LLM--手搓一个好用的视频/图片提示词反推器
今天我们把ComfyUI工具和多模态LLM结合,在魔搭的免费算力上搭建出支持单图理解,多图理解,视频理解的WebUI界面,更好的支持开发者快速搭建一个视频/图片页面打标器。
ComfyUI+多模态LLM--手搓一个好用的视频/图片提示词反推器
|
1月前
|
算法 测试技术 AI芯片
CPU反超NPU,llama.cpp生成速度翻5倍!LLM端侧部署新范式T-MAC开源
【9月更文挑战第7天】微软研究院提出了一种名为T-MAC的创新方法,旨在解决大型语言模型在资源受限的边缘设备上高效部署的问题。T-MAC通过查表法在CPU上实现低比特LLM的高效推理,支持混合精度矩阵乘法,无需解量化。其通过位级查表实现统一且可扩展的解决方案,优化数据布局和重用率,显著提升了单线程和多线程下的mpGEMV及mpGEMM性能,并在端到端推理吞吐量和能效方面表现出色。然而,表量化和快速聚合技术可能引入近似和数值误差,影响模型准确性。论文详见:[链接](https://www.arxiv.org/pdf/2407.00088)。
75 10
|
1月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
66 10
|
2月前
|
数据采集 人工智能 监控
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
Label-LLM 是一款专为大模型训练设计的多模态文本对话标注工具,支持团队协作,让标注工作变得简单高效。它不仅涵盖丰富的任务类型,如回答采集、偏好收集和内容评估等,还支持多模态数据标注,包括图像、视频和音频。Label-LLM具备预标注载入功能,能大幅提升工作效率,并提供全方位的任务管理与可视化分析,确保标注质量。快来体验这款强大的标注平台吧![部署文档](https://github.com/opendatalab/LabelLLM)
297 0
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
|
3月前
|
算法 API 数据中心
魔搭社区利用 NVIDIA TensorRT-LLM 加速开源大语言模型推理
魔搭社区于 2022 年 11 月初创建,首次在业界提出了 “模型即服务”( MaaS, Model as a Service)的理念。
|
4月前
|
人工智能 自然语言处理 算法
LLM主流开源代表模型(二)
随着ChatGPT迅速火爆,引发了大模型的时代变革,国内外各大公司也快速跟进生成式AI市场,近百款大模型发布及应用。
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
LLM主流开源代表模型(一)
随着ChatGPT迅速火爆,引发了大模型的时代变革,国内外各大公司也快速跟进生成式AI市场,近百款大模型发布及应用。
|
4月前
|
人工智能 自然语言处理 算法
分享几个.NET开源的AI和LLM相关项目框架
分享几个.NET开源的AI和LLM相关项目框架
|
2月前
|
人工智能 自然语言处理
公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4
【8月更文挑战第3天】新论文提出“公理训练”法,使仅有6700万参数的语言模型掌握因果推理,性能媲美万亿级GPT-4。研究通过大量合成数据示例教授模型因果公理,实现有效推理并泛化至复杂图结构。尽管面临合成数据需求大及复杂关系处理限制,此法仍为语言模型的因果理解开辟新途径。[链接: https://arxiv.org/pdf/2407.07612]
58 1