LongLLaVA:香港中文大学推出的多模态上下文混合架构大语言模型

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: LongLLaVA是由香港中文大学推出的多模态大型语言模型,采用混合架构,结合Mamba和Transformer模块,旨在高效处理大量图像数据。该模型能够在单个A100 80GB GPU上处理多达1000张图像,通过2D池化技术压缩图像token,显著降低计算成本,同时保留关键的空间关系信息。LongLLaVA在视频理解、高分辨率图像分析和多模态代理等应用场景中展现出卓越的性能。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

模型架构:结合Mamba和Transformer模块,提高处理大量图像数据的效率。
功能特点:在单个GPU上处理多达1000张图像,展示高效图像处理能力。
应用场景:适用于视频理解、高分辨率图像分析和多模态代理等任务。

正文(附运行示例)

LongLLaVA 是什么

公众号: 蚝油菜花 - LongLLaVA

LongLLaVA是由香港中文大学(深圳)的研究人员推出的多模态大型语言模型(MLLM)。该模型基于混合架构,结合了Mamba和Transformer模块,旨在提高处理大量图像数据的效率。LongLLaVA能够在单个A100 80GB GPU上处理多达1000张图像,同时保持高性能和低内存消耗。

通过2D池化技术,LongLLaVA压缩图像token,显著降低计算成本,同时保留关键的空间关系信息。这使得模型在视频理解、高分辨率图像分析和多模态代理等应用场景中展现出卓越的性能,特别是在检索、计数和排序任务中。

LongLLaVA 的主要功能

  • 多模态长上下文理解:处理包含大量图像的长上下文信息,适用于视频理解、高分辨率图像分析等场景。
  • 高效图像处理:在单个GPU上处理多达1000张图像,展示在处理大规模视觉数据时的高效能力。
  • 混合架构优化:结合Mamba和Transformer架构,平衡模型的效率和效果。
  • 数据构建与训练策略:基于特殊的数据构建方法和分阶段训练策略,增强模型对多图像场景的理解能力。
  • 优异的基准测试表现:在多个基准测试中,展现卓越的性能,尤其在检索、计数和排序任务中。

LongLLaVA 的技术原理

  • 混合架构:基于混合架构,整合Mamba和Transformer模块。Mamba模块提供线性时间复杂度的序列建模能力,Transformer模块处理需要上下文学习的复杂任务。
  • 2D池化压缩:用2D池化方法压缩图像token,减少token的数量,同时保留图像间的空间关系。
  • 数据构建:在数据构建时考虑图像之间的时间和空间依赖性,设计独特的数据格式,让模型更好地理解多图像场景。
  • 渐进式训练策略:模型采用三阶段的训练方法,包括单图像对齐、单图像指令调优和多图像指令调优,逐步提升模型处理多模态长上下文的能力。
  • 效率与性能平衡:在保持高性能的同时,基于架构和训练策略的优化,实现低内存消耗和高吞吐量,展现在资源管理上的优势。
  • 多模态输入处理:能处理多种多模态输入,包括图像、视频和文本,有效地在内部混合架构中统一管理预处理输入。

如何运行 LongLLaVA

环境设置

pip install -r requirements.txt

数据下载与构建

数据下载与构建的详细步骤即将发布。

训练

下载语言模型

🤗 <a href="https://huggingface.co/FreedomIntelligence/Jamba-9B-Instruct" target="_blank">Jamba-9B-Instruct</a>

阶段一:单图像对齐

bash Align.sh

阶段二:单图像指令调优

bash SingleImageSFT.sh

阶段三:多图像指令调优

bash MultiImageSFT.sh

评估

命令行接口

python cli.py --model_dir path-to-longllava

模型推理

query = 'What does the picture show?'
image_paths = ['image_path1'] # image or video path

from cli import Chatbot
bot = Chatbot(path-to-longllava)
output = bot.chat(query, image_paths)
print(output) # Prints the output of the model

基准测试

python Eval.sh

重现论文中的其他结果

FLOPs

python /utils/cal_flops.py

预填充时间、吞吐量和GPU内存使用

python ./benchmarks/Efficiency/evaluate.py
python ./benchmarks/Efficiency/evaluatevllm.py

DownCycling

将Jamba-MoE转换为Dense

python ./utils/dense_downcycling.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
2月前
|
人工智能 测试技术 数据处理
首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理
【10月更文挑战第18天】《LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture》提出了一种新型多模态大模型LongLLaVA,结合了Mamba和Transformer架构,通过系统优化实现在单张A100 80GB GPU上处理近千张图像的突破。该模型在视频理解、高分辨率图像分析和多模态智能体任务中表现出色,显著提升了计算效率。
148 64
|
18天前
|
监控
SMoA: 基于稀疏混合架构的大语言模型协同优化框架
通过引入稀疏化和角色多样性,SMoA为大语言模型多代理系统的发展开辟了新的方向。
30 6
SMoA: 基于稀疏混合架构的大语言模型协同优化框架
|
3月前
|
数据可视化 Swift
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
|
自然语言处理 测试技术 vr&ar
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
265 0
统一多模态模型来了!智源发布多模态世界模型Emu3!
2024年10月21日,智源研究院正式发布原生多模态世界模型Emu3。
|
2月前
|
机器学习/深度学习 人工智能
【AI大模型】深入Transformer架构:编码器部分的实现与解析(下)
【AI大模型】深入Transformer架构:编码器部分的实现与解析(下)
|
2月前
|
机器学习/深度学习 人工智能 数据可视化
【AI大模型】深入Transformer架构:编码器部分的实现与解析(上)
【AI大模型】深入Transformer架构:编码器部分的实现与解析(上)
|
4月前
|
数据采集 人工智能 编解码
抛弃视觉编码器,这个原生版多模态大模型也能媲美主流方法
【8月更文挑战第4天】在AI领域,多模态大模型(VLMs)融合视觉与语言处理,但现有模型多依赖视觉编码器,限制了灵活性与效率。为解决此问题,研究者开发出不依赖编码器的VLMs,提出一种高效训练方案,通过统一解码器内部桥接视觉-语言表示,并引入额外监督增强视觉识别能力。基于此,开发出EVE模型,在多个基准测试中表现出色,仅用3500万公开数据即可媲美甚至超越传统模型。尽管如此,EVE仍面临计算资源需求高及数据质量等挑战。这一突破引发了对未来VLM发展方向的讨论。[论文链接: https://arxiv.org/abs/2406.11832]
58 1
|
6月前
|
人工智能 自然语言处理 算法
LLM主流开源代表模型(二)
随着ChatGPT迅速火爆,引发了大模型的时代变革,国内外各大公司也快速跟进生成式AI市场,近百款大模型发布及应用。
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
LLM主流开源代表模型(一)
随着ChatGPT迅速火爆,引发了大模型的时代变革,国内外各大公司也快速跟进生成式AI市场,近百款大模型发布及应用。

热门文章

最新文章

下一篇
无影云桌面