首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源

简介: 【5月更文挑战第6天】Cobra,首个基于Mamba的多模态大语言模型,开源了其权重和训练代码。Cobra结合Mamba的高效语言模型与视觉模态,以线性计算复杂度提升MLLM效率,适用于更多实际场景。通过优化模态融合,Cobra在速度、性能和参数效率上超越现有方法,如在封闭集挑战预测中表现优秀,并能在参数量减少的情况下保持强效性能。[链接](https://arxiv.org/pdf/2403.14520v2.pdf)

最近,一个名为Cobra的新型多模态大语言模型(MLLM)引起了广泛关注。Cobra是首个基于Mamba的MLLM,它通过将高效的Mamba语言模型与视觉模态相结合,实现了在各种应用场景下的显著成功。

Cobra的出现填补了MLLM领域的一项重要空白。尽管现有的MLLM在处理文本和图像等多模态数据方面取得了巨大进展,但它们的计算复杂度通常较高,这限制了它们的实际应用。Cobra通过引入线性计算复杂度,显著提高了MLLM的效率,使其更适用于实际应用场景。

Cobra的核心在于将Mamba语言模型与视觉模态相结合。Mamba是一种高效的语言模型,它通过使用线性计算复杂度的架构,实现了在处理文本数据时的高效性能。Cobra通过将Mamba与视觉模态相结合,创建了一个多模态的Mamba模型,从而能够处理更广泛的应用场景。

Cobra的另一个重要贡献在于对模态融合方案的探索和研究。模态融合是多模态MLLM中的关键问题之一,它决定了模型对多模态数据的理解和表达能力。Cobra通过研究各种模态融合方案,找到了一种有效的多模态Mamba模型,从而进一步提高了模型的性能。

Cobra的性能在广泛的实验中得到了验证。首先,与当前的计算高效的SOTA方法(如LLaVA-Phi、TinyLLaVA和MobileVLM v2)相比,Cobra在保持竞争力性能的同时,具有更快的速度。这主要归功于Cobra的线性序列建模能力。

其次,在封闭集挑战预测基准测试中,Cobra表现出色,能够克服视觉错觉并进行空间关系判断。这表明Cobra在处理复杂视觉任务时具有出色的能力。

最后,值得注意的是,Cobra甚至在参数数量仅为LLaVA的43%的情况下,实现了与LLaVA相当的性能。这表明Cobra在保持性能的同时,具有更高的效率和可扩展性。

原文链接:https://arxiv.org/pdf/2403.14520v2.pdf

目录
相关文章
|
6月前
|
存储 机器学习/深度学习 算法
​​LLM推理效率的范式转移:FlashAttention与PagedAttention正在重塑AI部署的未来​
本文深度解析FlashAttention与PagedAttention两大LLM推理优化技术:前者通过分块计算提升注意力效率,后者借助分页管理降低KV Cache内存开销。二者分别从计算与内存维度突破性能瓶颈,显著提升大模型推理速度与吞吐量,是当前高效LLM系统的核心基石。建议收藏细读。
1251 125
|
人工智能 自然语言处理 PyTorch
Bamba-9B:基于 Mamba2 架构的仅解码语言模型,旨在提高大型语言模型在推理时的效率
Bamba-9B 是由 IBM、普林斯顿大学、卡内基梅隆大学和伊利诺伊大学香槟分校联合推出的基于 Mamba2 架构的仅解码语言模型。该模型在开放数据集上训练,旨在提高大型语言模型的推理效率,特别是在处理长文本时的内存带宽瓶颈。Bamba-9B 在推理时相较于标准变换器模型展现出 2.5 倍的吞吐量提升和 2 倍的延迟加速。
503 12
Bamba-9B:基于 Mamba2 架构的仅解码语言模型,旨在提高大型语言模型在推理时的效率
|
6月前
|
机器学习/深度学习 自然语言处理 搜索推荐
别再靠“人海战术”了:数据如何帮社交媒体搞定内容审核?
别再靠“人海战术”了:数据如何帮社交媒体搞定内容审核?
288 13
|
Ubuntu Linux Docker
|
安全 芯片
PD快充诱骗芯片PW6606:一键解决电压诱骗,支持多电压5V/9V/12V/20V,兼容性强
PW6606是一款功能强大的智能快充芯片,支持PD和QC协议,具备智能协议选择、电压诱骗和多重保护机制。它广泛应用于智能手机、平板电脑和笔记本电脑等设备,确保安全、快速充电,并兼容多种充电器和数据线。
|
负载均衡 网络协议 安全
DNS解析中的Anycast技术:原理与优势
【9月更文挑战第7天】在互联网体系中,域名系统(DNS)将域名转换为IP地址,但网络规模的扩张使DNS解析面临高效、稳定与安全挑战。Anycast技术应运而生,通过将同一IP地址分配给多个地理分布的服务器,并依据网络状况自动选择最近且负载低的服务器响应查询请求,提升了DNS解析速度与效率,实现负载均衡,缓解DDoS攻击,增强系统高可用性。此技术利用动态路由协议如BGP实现,未来在网络发展中将扮演重要角色。
1234 0
软件著作权申请流程及费用_快速登记_软著材料及常见问题解答FAQ
阿里云软件著作权申请涉及账号注册、实名认证和选择服务。在阿里云官网注册账号,通过实名认证后,选择登记服务,如普通359.1元/件或加急1080元/件。在线填报申请表,阿里云初审后授权提交,打印申请表并邮寄材料。版权中心审查后,通过则领取证书,未通过需补正。整个过程约20天。详细步骤见阿里云百科相关教程。
690 3
|
数据采集 人工智能 算法
资深博导:我以为数据预处理是常识,直到遇到自己的学生
**摘要:** 本文介绍如何使用Python对近红外光谱土壤数据进行预处理,包括MSC(多元散射校正)、SNV(标准正规化变换)、光谱微分、基线校正和去趋势。通过代码示例展示了预处理步骤,以及每种方法前后的光谱对比。预处理旨在减少噪音、消除散射效应、基线漂移和趋势,提高数据质量和可比性,以利于后续的分析和建模。每部分都配有图表,显示了处理前后的光谱变化。
1017 0
资深博导:我以为数据预处理是常识,直到遇到自己的学生
|
搜索推荐
8个邮件营销平台分析及对比
本文对比了8个热门邮件营销平台:Aoksend适合初创企业,Constant Contact用户友好,Sendinblue提供多元营销服务,GetResponse功能全面,蜂邮EDM适合大规模活动,MailerLite价格实惠,Campaign Monitor专业定制,ActiveCampaign侧重营销自动化。选择时应考虑自身需求和预算。
|
人工智能 弹性计算 并行计算
带你读《弹性计算技术指导及场景应用》——1. 技术改变AI发展:CUDA Graph优化的底层原理分析
带你读《弹性计算技术指导及场景应用》——1. 技术改变AI发展:CUDA Graph优化的底层原理分析
671 2