来自纽约大学的谢赛宁(Saining Xie)和Yann LeCun领导的团队最近发布了名为寒武纪1号(Cambrian-1)的多模态大型语言模型(MLLM)。这项研究旨在解决当前多模态LLM在视觉理解和语言理解方面的局限性,并推动多模态LLM在真实世界场景中的应用。
寒武纪1号是一系列多模态LLM的集合,包括8B、13B和34B三种不同规模的模型。这些模型旨在通过结合视觉和语言信息,实现更强大的多模态理解和生成能力。
首先,寒武纪1号引入了一种名为“空间视觉聚合器”(SVA)的新型连接器设计,用于将视觉特征与LLM进行集成。SVA通过在LLM的不同层之间多次聚合视觉信息,并引入空间归纳偏置,实现了更灵活和高效的视觉信息集成。
其次,寒武纪1号团队对现有的多模态LLM基准进行了深入分析,并提出了一种名为CV-Bench的新基准。CV-Bench旨在通过将经典的视觉任务重新表述为视觉问答(VQA)问题,更全面地评估多模态LLM的视觉理解能力。
此外,寒武纪1号团队还对多模态LLM的训练数据进行了深入研究,并提出了一种名为Cambrian-7M的大规模、高质量的训练数据集。该数据集通过平衡不同数据源的比例、过滤低质量数据和添加系统提示等方式进行了精心设计,以改善多模态LLM的训练效果。
在实验中,寒武纪1号在多个多模态LLM基准上取得了最先进的性能,包括在OCR和ChartQA等高分辨率图像处理任务上的显著改进。此外,寒武纪1号还在一些真实世界的应用场景中进行了测试,如图像描述生成和视觉问答,并展示了其在处理复杂视觉信息方面的潜力。
然而,寒武纪1号也存在一些局限性。首先,尽管SVA在聚合视觉信息方面取得了改进,但仍然存在信息丢失的风险,特别是在处理高分辨率图像时。其次,尽管CV-Bench在评估多模态LLM的视觉理解能力方面取得了进展,但仍然存在一些未被覆盖的视觉任务,如视频理解和三维场景理解。