首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源

简介: 【5月更文挑战第6天】Cobra,首个基于Mamba的多模态大语言模型,开源了其权重和训练代码。Cobra结合Mamba的高效语言模型与视觉模态,以线性计算复杂度提升MLLM效率,适用于更多实际场景。通过优化模态融合,Cobra在速度、性能和参数效率上超越现有方法,如在封闭集挑战预测中表现优秀,并能在参数量减少的情况下保持强效性能。[链接](https://arxiv.org/pdf/2403.14520v2.pdf)

最近,一个名为Cobra的新型多模态大语言模型(MLLM)引起了广泛关注。Cobra是首个基于Mamba的MLLM,它通过将高效的Mamba语言模型与视觉模态相结合,实现了在各种应用场景下的显著成功。

Cobra的出现填补了MLLM领域的一项重要空白。尽管现有的MLLM在处理文本和图像等多模态数据方面取得了巨大进展,但它们的计算复杂度通常较高,这限制了它们的实际应用。Cobra通过引入线性计算复杂度,显著提高了MLLM的效率,使其更适用于实际应用场景。

Cobra的核心在于将Mamba语言模型与视觉模态相结合。Mamba是一种高效的语言模型,它通过使用线性计算复杂度的架构,实现了在处理文本数据时的高效性能。Cobra通过将Mamba与视觉模态相结合,创建了一个多模态的Mamba模型,从而能够处理更广泛的应用场景。

Cobra的另一个重要贡献在于对模态融合方案的探索和研究。模态融合是多模态MLLM中的关键问题之一,它决定了模型对多模态数据的理解和表达能力。Cobra通过研究各种模态融合方案,找到了一种有效的多模态Mamba模型,从而进一步提高了模型的性能。

Cobra的性能在广泛的实验中得到了验证。首先,与当前的计算高效的SOTA方法(如LLaVA-Phi、TinyLLaVA和MobileVLM v2)相比,Cobra在保持竞争力性能的同时,具有更快的速度。这主要归功于Cobra的线性序列建模能力。

其次,在封闭集挑战预测基准测试中,Cobra表现出色,能够克服视觉错觉并进行空间关系判断。这表明Cobra在处理复杂视觉任务时具有出色的能力。

最后,值得注意的是,Cobra甚至在参数数量仅为LLaVA的43%的情况下,实现了与LLaVA相当的性能。这表明Cobra在保持性能的同时,具有更高的效率和可扩展性。

原文链接:https://arxiv.org/pdf/2403.14520v2.pdf

目录
相关文章
|
6月前
|
数据采集 人工智能
论文介绍:训练计算最优的大型语言模型
【2月更文挑战第30天】研究人员发现,在有限计算资源下,优化大型语言模型的训练需使模型大小和训练数据量成比例增长,以达到计算最优。通过训练700亿参数的Chinchilla模型并对比GPT-3等,验证了该策略的有效性。论文强调数据集质量和伦理隐私问题,并提出预测模型扩展的方法。这一发现对AI领域的模型训练策略提供了新思路,但也面临数据质量和伦理挑战。
63 2
论文介绍:训练计算最优的大型语言模型
|
存储 机器学习/深度学习 负载均衡
清华发布SmartMoE:一键实现高性能MoE稀疏大模型分布式训练
清华发布SmartMoE:一键实现高性能MoE稀疏大模型分布式训练
1201 0
|
25天前
|
人工智能 测试技术 数据处理
首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理
【10月更文挑战第18天】《LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture》提出了一种新型多模态大模型LongLLaVA,结合了Mamba和Transformer架构,通过系统优化实现在单张A100 80GB GPU上处理近千张图像的突破。该模型在视频理解、高分辨率图像分析和多模态智能体任务中表现出色,显著提升了计算效率。
144 64
|
1月前
|
人工智能 网络架构 开发者
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
【10月更文挑战第1天】《OLMoE: Open Mixture-of-Experts Language Models》一文介绍了OLMoE,这是一个完全开源的Mixture-of-Experts(MoE)语言模型,具有70亿参数量,但每个输入令牌仅需10亿参数进行推理,有效平衡了性能与成本。OLMoE由Allen Institute for AI等机构的研究者共同开发,其开源特性促进了大规模语言模型领域的合作与创新,降低了资源浪费,同时具备良好的可扩展性和效率,为研究和应用开辟了新可能。然而,其复杂性也可能带来训练和调优上的挑战。
44 2
|
3月前
|
人工智能 自然语言处理 测试技术
权重、代码、数据集全开源,性能超越Mistral-7B,苹果小模型来了
【8月更文挑战第12天】DCLM是由多家机构联合推出的全新测试平台,旨在通过优化数据集增强语言模型性能。其核心贡献包括一个含240万亿token的标准化语料库及有效的预训练方案。DCLM-BASELINE数据集成功训练出7B参数模型,在MMLU上5-shot准确率达64%,超越Mistral-7B,且计算成本降低40%。尽管存在局限,但该项目已全开源,为社区提供宝贵资源,推动语言模型发展。[论文链接](https://arxiv.org/pdf/2406.11794)
167 60
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】Transformers大模型库(九):大模型微调之计算微调参数占比
【AI大模型】Transformers大模型库(九):大模型微调之计算微调参数占比
53 0
|
6月前
|
存储 机器学习/深度学习 人工智能
基于Megatron-Core的稀疏大模型训练工具:阿里云MoE大模型最佳实践
随着大模型技术的不断发展,模型结构和参数量级快速演化。大模型技术的应用层出不穷。大模型展现惊人效果,但训练和推理成本高,一直是巨大挑战。模型稀疏化能降低计算和存储消耗。近期以Mixtral为代表的MoE(多专家混合)大模型证明了稀疏MoE技术能大幅降低计算量、提升推理速度,模型效果甚至超过同规模稠密模型。阿里云PAI和NVIDIA团队深入合作,基于Megatron-Core MoE框架,解决了MoE大模型训练落地时会遇到的可拓展性、易用性、功能性以及收敛精度等核心问题,在下游任务上取得了很好的模型效果。
|
6月前
|
机器学习/深度学习 人工智能 搜索推荐
使用PyTorch实现混合专家(MoE)模型
在本文中,我将使用Pytorch来实现一个MoE模型。在具体代码之前,让我们先简单介绍一下混合专家的体系结构。
702 1
|
机器学习/深度学习 算法 计算机视觉
可与ViT一较高下,DeepMind从稀疏转向Soft混合专家模型
可与ViT一较高下,DeepMind从稀疏转向Soft混合专家模型
245 0
|
人工智能 自然语言处理 算法
将蛋白质语言模型扩展到千亿参数,深度解读百图生科、清华xTrimoPGLM模型
将蛋白质语言模型扩展到千亿参数,深度解读百图生科、清华xTrimoPGLM模型
114 0
将蛋白质语言模型扩展到千亿参数,深度解读百图生科、清华xTrimoPGLM模型