首个基于Mamba的MLLM来了！模型权重、训练代码等已全部开源-阿里云开发者社区

首个基于Mamba的MLLM来了！模型权重、训练代码等已全部开源

2024-05-07 176 发布于北京

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【5月更文挑战第6天】Cobra，首个基于Mamba的多模态大语言模型，开源了其权重和训练代码。Cobra结合Mamba的高效语言模型与视觉模态，以线性计算复杂度提升MLLM效率，适用于更多实际场景。通过优化模态融合，Cobra在速度、性能和参数效率上超越现有方法，如在封闭集挑战预测中表现优秀，并能在参数量减少的情况下保持强效性能。[链接](https://arxiv.org/pdf/2403.14520v2.pdf)

最近，一个名为Cobra的新型多模态大语言模型（MLLM）引起了广泛关注。Cobra是首个基于Mamba的MLLM，它通过将高效的Mamba语言模型与视觉模态相结合，实现了在各种应用场景下的显著成功。

Cobra的出现填补了MLLM领域的一项重要空白。尽管现有的MLLM在处理文本和图像等多模态数据方面取得了巨大进展，但它们的计算复杂度通常较高，这限制了它们的实际应用。Cobra通过引入线性计算复杂度，显著提高了MLLM的效率，使其更适用于实际应用场景。

Cobra的核心在于将Mamba语言模型与视觉模态相结合。Mamba是一种高效的语言模型，它通过使用线性计算复杂度的架构，实现了在处理文本数据时的高效性能。Cobra通过将Mamba与视觉模态相结合，创建了一个多模态的Mamba模型，从而能够处理更广泛的应用场景。

Cobra的另一个重要贡献在于对模态融合方案的探索和研究。模态融合是多模态MLLM中的关键问题之一，它决定了模型对多模态数据的理解和表达能力。Cobra通过研究各种模态融合方案，找到了一种有效的多模态Mamba模型，从而进一步提高了模型的性能。

Cobra的性能在广泛的实验中得到了验证。首先，与当前的计算高效的SOTA方法（如LLaVA-Phi、TinyLLaVA和MobileVLM v2）相比，Cobra在保持竞争力性能的同时，具有更快的速度。这主要归功于Cobra的线性序列建模能力。

其次，在封闭集挑战预测基准测试中，Cobra表现出色，能够克服视觉错觉并进行空间关系判断。这表明Cobra在处理复杂视觉任务时具有出色的能力。

最后，值得注意的是，Cobra甚至在参数数量仅为LLaVA的43％的情况下，实现了与LLaVA相当的性能。这表明Cobra在保持性能的同时，具有更高的效率和可扩展性。

原文链接：https://arxiv.org/pdf/2403.14520v2.pdf

首个基于Mamba的MLLM来了！模型权重、训练代码等已全部开源

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

首个基于Mamba的MLLM来了！模型权重、训练代码等已全部开源

热门文章

最新文章

相关课程

相关电子书

相关实验场景