最近,一个名为Cobra的新型多模态大语言模型(MLLM)引起了广泛关注。Cobra是首个基于Mamba的MLLM,它通过将高效的Mamba语言模型与视觉模态相结合,实现了在各种应用场景下的显著成功。
Cobra的出现填补了MLLM领域的一项重要空白。尽管现有的MLLM在处理文本和图像等多模态数据方面取得了巨大进展,但它们的计算复杂度通常较高,这限制了它们的实际应用。Cobra通过引入线性计算复杂度,显著提高了MLLM的效率,使其更适用于实际应用场景。
Cobra的核心在于将Mamba语言模型与视觉模态相结合。Mamba是一种高效的语言模型,它通过使用线性计算复杂度的架构,实现了在处理文本数据时的高效性能。Cobra通过将Mamba与视觉模态相结合,创建了一个多模态的Mamba模型,从而能够处理更广泛的应用场景。
Cobra的另一个重要贡献在于对模态融合方案的探索和研究。模态融合是多模态MLLM中的关键问题之一,它决定了模型对多模态数据的理解和表达能力。Cobra通过研究各种模态融合方案,找到了一种有效的多模态Mamba模型,从而进一步提高了模型的性能。
Cobra的性能在广泛的实验中得到了验证。首先,与当前的计算高效的SOTA方法(如LLaVA-Phi、TinyLLaVA和MobileVLM v2)相比,Cobra在保持竞争力性能的同时,具有更快的速度。这主要归功于Cobra的线性序列建模能力。
其次,在封闭集挑战预测基准测试中,Cobra表现出色,能够克服视觉错觉并进行空间关系判断。这表明Cobra在处理复杂视觉任务时具有出色的能力。
最后,值得注意的是,Cobra甚至在参数数量仅为LLaVA的43%的情况下,实现了与LLaVA相当的性能。这表明Cobra在保持性能的同时,具有更高的效率和可扩展性。