LongLLaVA:香港中文大学推出的多模态上下文混合架构大语言模型

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: LongLLaVA是由香港中文大学推出的多模态大型语言模型,采用混合架构,结合Mamba和Transformer模块,旨在高效处理大量图像数据。该模型能够在单个A100 80GB GPU上处理多达1000张图像,通过2D池化技术压缩图像token,显著降低计算成本,同时保留关键的空间关系信息。LongLLaVA在视频理解、高分辨率图像分析和多模态代理等应用场景中展现出卓越的性能。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

模型架构:结合Mamba和Transformer模块,提高处理大量图像数据的效率。
功能特点:在单个GPU上处理多达1000张图像,展示高效图像处理能力。
应用场景:适用于视频理解、高分辨率图像分析和多模态代理等任务。

正文(附运行示例)

LongLLaVA 是什么

公众号: 蚝油菜花 - LongLLaVA

LongLLaVA是由香港中文大学(深圳)的研究人员推出的多模态大型语言模型(MLLM)。该模型基于混合架构,结合了Mamba和Transformer模块,旨在提高处理大量图像数据的效率。LongLLaVA能够在单个A100 80GB GPU上处理多达1000张图像,同时保持高性能和低内存消耗。

通过2D池化技术,LongLLaVA压缩图像token,显著降低计算成本,同时保留关键的空间关系信息。这使得模型在视频理解、高分辨率图像分析和多模态代理等应用场景中展现出卓越的性能,特别是在检索、计数和排序任务中。

LongLLaVA 的主要功能

  • 多模态长上下文理解:处理包含大量图像的长上下文信息,适用于视频理解、高分辨率图像分析等场景。
  • 高效图像处理:在单个GPU上处理多达1000张图像,展示在处理大规模视觉数据时的高效能力。
  • 混合架构优化:结合Mamba和Transformer架构,平衡模型的效率和效果。
  • 数据构建与训练策略:基于特殊的数据构建方法和分阶段训练策略,增强模型对多图像场景的理解能力。
  • 优异的基准测试表现:在多个基准测试中,展现卓越的性能,尤其在检索、计数和排序任务中。

LongLLaVA 的技术原理

  • 混合架构:基于混合架构,整合Mamba和Transformer模块。Mamba模块提供线性时间复杂度的序列建模能力,Transformer模块处理需要上下文学习的复杂任务。
  • 2D池化压缩:用2D池化方法压缩图像token,减少token的数量,同时保留图像间的空间关系。
  • 数据构建:在数据构建时考虑图像之间的时间和空间依赖性,设计独特的数据格式,让模型更好地理解多图像场景。
  • 渐进式训练策略:模型采用三阶段的训练方法,包括单图像对齐、单图像指令调优和多图像指令调优,逐步提升模型处理多模态长上下文的能力。
  • 效率与性能平衡:在保持高性能的同时,基于架构和训练策略的优化,实现低内存消耗和高吞吐量,展现在资源管理上的优势。
  • 多模态输入处理:能处理多种多模态输入,包括图像、视频和文本,有效地在内部混合架构中统一管理预处理输入。

如何运行 LongLLaVA

环境设置

pip install -r requirements.txt

数据下载与构建

数据下载与构建的详细步骤即将发布。

训练

下载语言模型

🤗 <a href="https://huggingface.co/FreedomIntelligence/Jamba-9B-Instruct" target="_blank">Jamba-9B-Instruct</a>

阶段一:单图像对齐

bash Align.sh

阶段二:单图像指令调优

bash SingleImageSFT.sh

阶段三:多图像指令调优

bash MultiImageSFT.sh

评估

命令行接口

python cli.py --model_dir path-to-longllava

模型推理

query = 'What does the picture show?'
image_paths = ['image_path1'] # image or video path

from cli import Chatbot
bot = Chatbot(path-to-longllava)
output = bot.chat(query, image_paths)
print(output) # Prints the output of the model

基准测试

python Eval.sh

重现论文中的其他结果

FLOPs

python /utils/cal_flops.py

预填充时间、吞吐量和GPU内存使用

python ./benchmarks/Efficiency/evaluate.py
python ./benchmarks/Efficiency/evaluatevllm.py

DownCycling

将Jamba-MoE转换为Dense

python ./utils/dense_downcycling.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
2月前
|
人工智能 缓存 监控
三核驱动!AI Agent+LLM+RAG 架构演进, 来一次AI架构的大白话+深度解读
三核驱动!AI Agent+LLM+RAG 架构演进, 来一次AI架构的大白话+深度解读
三核驱动!AI Agent+LLM+RAG 架构演进, 来一次AI架构的大白话+深度解读
|
2月前
|
存储 设计模式 人工智能
AI Agent安全架构实战:基于LangGraph的Human-in-the-Loop系统设计​
本文深入解析Human-in-the-Loop(HIL)架构在AI Agent中的核心应用,探讨其在高风险场景下的断点控制、状态恢复与安全管控机制,并结合LangGraph的创新设计与金融交易实战案例,展示如何实现效率与安全的平衡。
286 0
|
4月前
|
自然语言处理 测试技术 开发工具
通义灵码上下文能力解析:自由组合需求描述,生成结果更高效
通义灵码提供智能会话能力,支持智能问答、文件编辑和智能体三种模式,帮助开发者解决编码问题,进行代码修复、调试及运行错误排查。它具备多文件修改、自主决策等能力,可端到端完成编码任务。在智能会话中,支持丰富的上下文(如代码文件、目录、图片、Git Commit 等),并允许用户自由组合提示词与上下文。插件可通过链接下载。此外,还支持多种上下文类型(#file、#folder、#image 等),便于开发者精准表达需求。
|
4月前
|
人工智能 负载均衡 API
长连接网关技术专题(十二):大模型时代多模型AI网关的架构设计与实现
随着 AI 技术快速发展,业务对 AI 能力的渴求日益增长。当 AI 服务面对处理大规模请求和高并发流量时,AI 网关从中扮演着至关重要的角色。AI 服务通常涉及大量的计算任务和设备资源占用,此时需要一个 AI 网关负责协调这些请求来确保系统的稳定性与高效性。因此,与传统微服务架构类似,我们将相关 API 管理的功能(如流量控制、用户鉴权、配额计费、负载均衡、API 路由等)集中放置在 AI 网关层,可以降低系统整体复杂度并提升可维护性。 本文要分享的是B站在大模型时代基于多模型AI的网关架构设计和实践总结,希望能带给你启发。
282 4
|
2月前
|
机器学习/深度学习 自然语言处理 搜索推荐
SingLoRA:单矩阵架构减半参数量,让大模型微调更稳定高效
SingLoRA是一种创新的低秩适应方法,通过单矩阵对称更新策略,有效提升模型微调的训练稳定性与参数效率。相比传统LoRA,其结构更简洁,参数更少,且无需复杂超参数调整,适用于大模型高效部署。
88 3
SingLoRA:单矩阵架构减半参数量,让大模型微调更稳定高效
|
2月前
|
人工智能 搜索推荐
​从“指令木偶”到“生命系统”:AI Agent架构的范式革命
本文探讨AI Agent架构的范式转变:从“指令木偶”走向“生命系统”。以《自衍体》(Zyantine)项目为例,提出构建“意识生态系统”,通过内在本能、欲望、成长与认知,赋予AI真正自主性与涌现行为,突破传统控制模式的局限,迎接AI智能体的“寒武纪大爆发”。
|
5月前
|
机器学习/深度学习 人工智能 并行计算
AI部署架构:A100、H100、A800、H800、H20的差异以及如何选型?开发、测试、生产环境如何进行AI大模型部署架构?
AI部署架构:A100、H100、A800、H800、H20的差异以及如何选型?开发、测试、生产环境如何进行AI大模型部署架构?
AI部署架构:A100、H100、A800、H800、H20的差异以及如何选型?开发、测试、生产环境如何进行AI大模型部署架构?
|
4月前
|
机器学习/深度学习 人工智能 算法
大型多模态推理模型技术演进综述:从模块化架构到原生推理能力的综合分析
该研究系统梳理了大型多模态推理模型(LMRMs)的技术发展,从早期模块化架构到统一的语言中心框架,提出原生LMRMs(N-LMRMs)的前沿概念。论文划分三个技术演进阶段及一个前瞻性范式,深入探讨关键挑战与评估基准,为构建复杂动态环境中的稳健AI系统提供理论框架。未来方向聚焦全模态泛化、深度推理与智能体行为,推动跨模态融合与自主交互能力的发展。
252 13
大型多模态推理模型技术演进综述:从模块化架构到原生推理能力的综合分析
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型新资讯】从信息蜂房到上下文工程
1. **信息蜂房**:借鉴“信息茧房”概念,倡导多元交流与群体智慧,推动内容生态协同发展。 2. **ROLL**:高效强化学习库,专为大语言模型优化,提升训练效率与多场景应用能力。 3. **AI游戏引擎**:以AI驱动生成式游戏,实时响应玩家想象,重塑游戏创作与体验方式。 4. **质陪解决方案**:融合AI质检与陪练系统,全面评估销售行为,助力企业提升服务质量与销售能力。 5. **上下文工程**:构建动态信息环境,为大模型提供任务所需完整背景,决定AI智能体成败关键。

热门文章

最新文章