首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源

简介: 【5月更文挑战第6天】Cobra,首个基于Mamba的多模态大语言模型,开源了其权重和训练代码。Cobra结合Mamba的高效语言模型与视觉模态,以线性计算复杂度提升MLLM效率,适用于更多实际场景。通过优化模态融合,Cobra在速度、性能和参数效率上超越现有方法,如在封闭集挑战预测中表现优秀,并能在参数量减少的情况下保持强效性能。[链接](https://arxiv.org/pdf/2403.14520v2.pdf)

最近,一个名为Cobra的新型多模态大语言模型(MLLM)引起了广泛关注。Cobra是首个基于Mamba的MLLM,它通过将高效的Mamba语言模型与视觉模态相结合,实现了在各种应用场景下的显著成功。

Cobra的出现填补了MLLM领域的一项重要空白。尽管现有的MLLM在处理文本和图像等多模态数据方面取得了巨大进展,但它们的计算复杂度通常较高,这限制了它们的实际应用。Cobra通过引入线性计算复杂度,显著提高了MLLM的效率,使其更适用于实际应用场景。

Cobra的核心在于将Mamba语言模型与视觉模态相结合。Mamba是一种高效的语言模型,它通过使用线性计算复杂度的架构,实现了在处理文本数据时的高效性能。Cobra通过将Mamba与视觉模态相结合,创建了一个多模态的Mamba模型,从而能够处理更广泛的应用场景。

Cobra的另一个重要贡献在于对模态融合方案的探索和研究。模态融合是多模态MLLM中的关键问题之一,它决定了模型对多模态数据的理解和表达能力。Cobra通过研究各种模态融合方案,找到了一种有效的多模态Mamba模型,从而进一步提高了模型的性能。

Cobra的性能在广泛的实验中得到了验证。首先,与当前的计算高效的SOTA方法(如LLaVA-Phi、TinyLLaVA和MobileVLM v2)相比,Cobra在保持竞争力性能的同时,具有更快的速度。这主要归功于Cobra的线性序列建模能力。

其次,在封闭集挑战预测基准测试中,Cobra表现出色,能够克服视觉错觉并进行空间关系判断。这表明Cobra在处理复杂视觉任务时具有出色的能力。

最后,值得注意的是,Cobra甚至在参数数量仅为LLaVA的43%的情况下,实现了与LLaVA相当的性能。这表明Cobra在保持性能的同时,具有更高的效率和可扩展性。

原文链接:https://arxiv.org/pdf/2403.14520v2.pdf

目录
相关文章
|
7月前
|
存储 机器学习/深度学习 算法
​​LLM推理效率的范式转移:FlashAttention与PagedAttention正在重塑AI部署的未来​
本文深度解析FlashAttention与PagedAttention两大LLM推理优化技术:前者通过分块计算提升注意力效率,后者借助分页管理降低KV Cache内存开销。二者分别从计算与内存维度突破性能瓶颈,显著提升大模型推理速度与吞吐量,是当前高效LLM系统的核心基石。建议收藏细读。
1443 125
|
人工智能 自然语言处理 PyTorch
Bamba-9B:基于 Mamba2 架构的仅解码语言模型,旨在提高大型语言模型在推理时的效率
Bamba-9B 是由 IBM、普林斯顿大学、卡内基梅隆大学和伊利诺伊大学香槟分校联合推出的基于 Mamba2 架构的仅解码语言模型。该模型在开放数据集上训练,旨在提高大型语言模型的推理效率,特别是在处理长文本时的内存带宽瓶颈。Bamba-9B 在推理时相较于标准变换器模型展现出 2.5 倍的吞吐量提升和 2 倍的延迟加速。
524 12
Bamba-9B:基于 Mamba2 架构的仅解码语言模型,旨在提高大型语言模型在推理时的效率
|
7月前
|
机器学习/深度学习 自然语言处理 搜索推荐
别再靠“人海战术”了:数据如何帮社交媒体搞定内容审核?
别再靠“人海战术”了:数据如何帮社交媒体搞定内容审核?
300 13
|
机器学习/深度学习 缓存
Block Transformer:通过全局到局部的语言建模加速LLM推理
Block Transformer是一种优化自回归语言模型推理效率的新架构,通过块级自注意力来平衡全局和局部依赖,提高吞吐量。模型包含嵌入器、块解码器和令牌解码器,其中块解码器处理全局依赖,令牌解码器处理局部细节。这种方法减轻了KV缓存的延迟和内存开销,尤其是在长序列处理中。实验显示,尽管Block Transformer参数量增加,但推理速度显著提升,尤其是在大块长度和优化的组件比例下,实现了性能与速度的平衡。
797 7
|
Ubuntu Linux Docker
|
安全 Android开发 iOS开发
移动应用开发之旅:从新手到专家的蜕变之路
【9月更文挑战第14天】本文将带你踏上一段探索移动应用开发的旅程,从基础概念的理解到高级技术的掌握,我们将一起见证一个初学者如何逐步成长为一名熟练的开发者。在这个过程中,我们将深入探讨移动操作系统的核心知识,学习如何在多个平台上构建高效的应用程序,并掌握性能优化、安全性增强和用户体验设计的关键策略。通过实际案例分析,你将获得宝贵的经验,学会如何应对常见的开发挑战。无论你是刚刚起步,还是希望提升现有技能,这篇文章都将为你提供一条清晰的道路,帮助你在移动应用开发领域取得突破。
|
安全 芯片
PD快充诱骗芯片PW6606:一键解决电压诱骗,支持多电压5V/9V/12V/20V,兼容性强
PW6606是一款功能强大的智能快充芯片,支持PD和QC协议,具备智能协议选择、电压诱骗和多重保护机制。它广泛应用于智能手机、平板电脑和笔记本电脑等设备,确保安全、快速充电,并兼容多种充电器和数据线。
|
数据采集 人工智能 算法
资深博导:我以为数据预处理是常识,直到遇到自己的学生
**摘要:** 本文介绍如何使用Python对近红外光谱土壤数据进行预处理,包括MSC(多元散射校正)、SNV(标准正规化变换)、光谱微分、基线校正和去趋势。通过代码示例展示了预处理步骤,以及每种方法前后的光谱对比。预处理旨在减少噪音、消除散射效应、基线漂移和趋势,提高数据质量和可比性,以利于后续的分析和建模。每部分都配有图表,显示了处理前后的光谱变化。
1106 0
资深博导:我以为数据预处理是常识,直到遇到自己的学生
|
Linux Shell UED
探索 Linux 命令 `dircolors`:自定义 `ls` 命令的颜色输出
`dircolors` 是 Linux 中用于自定义 `ls` 命令颜色输出的工具,它读取配置文件(默认 `/etc/DIR_COLORS` 或通过 `LS_COLORS` 环境变量)并生成 shell 变量。
|
安全 关系型数据库 API
Nuxt3 实战 (七):配置 Supabase 数据库
这篇文章介绍了如何为Nuxt项目集成Supabase数据库。文章首先阐述了选择Supabase作为Nuxt项目的数据库的理由,包括其良好的网络评价、与Nuxt的良好集成以及对用户认证和身份鉴权的支持。接着,文章详细介绍了Supabase的特点,如使用PostgreSQL作为数据库、提供完整的认证系统、支持实时数据同步和提供对象存储服务等。然后,文章指导读者如何在Nuxt项目中安装和配置Supabase,包括设置重定向策略和获取数据库访问密钥。最后,文章强调了在开发环境和生产环境中使用不同密钥的重要性。
885 0
Nuxt3 实战 (七):配置 Supabase 数据库

热门文章

最新文章

下一篇
开通oss服务