阿里云AirCache技术实现多模态大模型高效推理加速,入选国际顶会ICCV2025

简介: 阿里云研发的AirCache技术被计算机视觉顶会ICCV2025收录,该技术通过激活跨模态关联、优化KV缓存压缩策略,显著提升视觉语言模型(VLMs)的推理效率与存储性能。实验表明,在保留仅10%视觉缓存的情况下,模型性能下降小于1%,解码延迟最高降低66%,吞吐量提升达192%。AirCache无需修改模型结构,兼容主流VLMs,已在教育、医疗、政务等多个行业落地应用,助力多模态大模型高效赋能产业智能化升级。

640 (9).gif


近日,计算机视觉国际大会ICCV2025公布论文评选结果,阿里云自主研发的最新技术成果《AirCache: Activating Inter-modal Relevancy KV Cache Compression for Efficient Vision-Language Model Inference》被大会录用。该研究聚焦视觉语言模型(VLMs)的高效推理难题,提出了一种新颖的AirCache技术,为多模态模型的高效推理提供了新的解决方案。

委员会评语:“AirCache作为专为视觉语言模型设计的KV缓存压缩方法,通过精准识别并保留最关键的视觉token,重构了多模态信息处理逻辑。论文最突出的价值在于通过多模型、多基准的强实证结果,充分验证了其在提升推理效率、降低存储开销方面的显著成效,为视觉语言模型的工程化落地提供了关键技术支撑。”


640 - 2025-07-17T155810.297.png


关于ICCVICCV是计算机视觉领域公认的国际顶级学术会议之一,被中国计算机学会(CCF)评为A类会议。该会议由IEEE与CVF共同主办,每两年举办一次,涵盖计算机视觉与模式识别的各类核心方向。2025年10月ICCV将于美国夏威夷举办,今年共收到11239篇有效投稿,最终录用2698篇论文,录用率为24%。


一.研究背景:破解大规模视觉语言模型推理的效率瓶颈

随着LVLMs的快速发展,其在处理多模态任务中展现出强大的推理和泛化能力。但面对真实场景,如处理高分辨率图像、多模态检索、知识增强、视频理解与分析等任务时,模型需要处理大量的视觉token以及长上下文输出,导致计算开销显著增加。这不仅带来了巨大的KV Cache存储需求,也对推理速度和显存消耗提出严峻挑战。

因此,如何在保证模型性能的前提下,提升推理效率、降低资源消耗,成为当前大规模视觉语言模型落地应用的一个关键问题。

目前业界主要通过视觉token剪枝KV Cache压缩等方法来尝试解决这一瓶颈,但仍存在以下挑战:

  • 视觉信息质量受损:传统的token剪枝方法在预填充阶段直接删除视觉token,导致视觉信息损失,严重影响模型性能。
  • 压缩策略欠优化:现有的KV Cache压缩方法在评估视觉token重要性和分配压缩预算时,未能充分考虑多模态交互的特点,压缩效果不理想。
  • 落地推广门槛高:部分方案为提升压缩提速效果,同时保持模型精度,需要针对模型进行结构修改,配合微调训练,但这需要花费大量的训练成本。


二.技术突破:AirCache跨模态关联激活与分层优化机制

640 - 2025-07-17T160016.880.png


阿里云自主研发的AirCache技术,通过精准评估视觉token重要性和自适应压缩预算分配,显著提升了大规模视觉语言模型的推理效率:

1、Elite观察窗口:精准捕捉跨模态关联AirCache创新性地提出了精英观察窗口机制通过自注意力机制筛选指令文本token,精准识别关键文本,从而构建出更具代表性的观察窗口。这一机制改变了以往采用全部或连续局部文本token作为观察窗口的方式,有效提升了视觉token重要性评估的一致性与稳定性。

2、动态分层预算分配:基于重要性分布的智能优化

AirCache深入分析了不同层视觉token重要性分布的特征,提出了基于分布强度和偏度的动态分层预算分配策略。不同于均匀分配预算的传统方式,该策略从两个维度对各层的压缩预算进行量化:

  • 重要性分布强度:通过计算所有视觉token重要性分数的总和,衡量该层对视觉信息的关注程度。关注程度越高的层,分配到的预算相对更多,以确保关键视觉信息得到保留。
  • 重要性分布偏度:通过统计方法计算偏度值,评估各层视觉token重要性分布的集中程度。对于偏度值较高的层,说明其存在少数高重要性的视觉token,为这些层分配更多预算能够更好地保留关键信息,提升模型性能。

通过将这两个维度的指标进行归一化处理并融合,AirCache能够为各层动态分配最优的压缩预算,在保证模型性能的前提下,实现KV缓存的高效压缩。


3、跨模态冗余消除:保留10%缓存,实现近无损推理

AirCache通过精准的重要性评估和智能的预算分配,实现了对视觉KV缓存的高效压缩。实验结果表明,在保留仅10%视觉KV缓存的情况下,AirCache能够在多种LVLMs和基准测试中,实现与完整缓存相当的性能,平均性能下降幅度控制在1%以内。

  • 在解码效率方面,AirCache展现出显著优势。在精度几乎无损情况下,其解码延迟降低幅度最高可达66%,吞吐量最高可提升192%。在不同批量大小和提示长度的输入场景下,均表现出稳定的加速效果。
  • 与其他先进的KV缓存压缩方法相比,AirCache在压缩率和性能保持方面具有明显优势。当缓存保留率降低时,AirCache的性能优势愈发显著。例如,在仅保留1%视觉tokens的情况下,AirCache在Qwen2-VL-7B模型上的表现平均优于当前最优方法6.7%,展现出更强的鲁棒性和适应性。
  • 另外,AirCache能够适配兼容多种主流的视觉语言大模型(VLMs),包括Qwen2-VL系列、LLaVA系列和InternVL系列等,无需对模型进行大规模修改和重新训练,具有良好的兼容性和可扩展性,且在各类多模态任务上均表现出色。


640 - 2025-07-17T160131.717.png


三.应用落地:多场景验证与行业价值创造

AirCache技术源于在服务各行业客户的海量视觉内容处理时,工程师高频遇到的性能瓶颈问题。该研究成果显著提升了多模态大模型在行业中的落地价值,如:

  • 教育媒体行业:存在海量教材文档、教学视频、媒资图像/视频等内容理解,以及知识库加工和语料构建场景,AirCache加速多模态内容的解析与生成,大幅提升内容处理效率。
  • 医疗能源行业:存在大量高分辨率、多序列医学影像理解分析场景,AirCache在保留关键视觉信息的前提下实现推理加速,提高诊断和异常发现的效率和准确性。
  • 城市政务行业:面向城市治理的实时视频流处理、视频图像监控理解等场景,AirCache视频流分析技术能够有效提升视频处理效率,减少长视频对于显存的占用。

以长视频处理场景为例,与原生推理框架相比,AirCache将GPU KV Cache的显存占用降低80%, 单卡吞吐量大幅提升71%, 从而显著提升了可处理的上下文长度和整体效率。目前,AirCache技术沉淀于阿里云百炼专属版产品体系,并与百炼专属版AI Stack一体机实现深度结合,持续构建软硬一体的技术优势,在教育、传媒、电力、医疗、制造、金融等多个行业领域发挥价值。

相关文章
|
2月前
|
负载均衡 测试技术 调度
大模型分布式推理:张量并行与流水线并行技术
本文深入探讨大语言模型分布式推理的核心技术——张量并行与流水线并行。通过分析单GPU内存限制下的模型部署挑战,详细解析张量并行的矩阵分片策略、流水线并行的阶段划分机制,以及二者的混合并行架构。文章包含完整的分布式推理框架实现、通信优化策略和性能调优指南,为千亿参数大模型的分布式部署提供全面解决方案。
606 4
|
2月前
|
机器学习/深度学习 人工智能 人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
395 121
|
2月前
|
数据采集 人工智能 搜索推荐
智能新纪元:多模态大模型如何重塑人机交互
智能新纪元:多模态大模型如何重塑人机交互
256 113
|
2月前
|
人工智能 人机交互 知识图谱
当AI学会“融会贯通”:多模态大模型如何重塑未来
当AI学会“融会贯通”:多模态大模型如何重塑未来
303 114
|
2月前
|
人工智能 安全 搜索推荐
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
279 117
|
2月前
|
人工智能 文字识别 自然语言处理
从“看见”到“预见”:合合信息“多模态文本智能技术”如何引爆AI下一场革命。
近期,在第八届中国模式识别与计算机视觉学术会议(PRCV 2025)上,合合信息作为承办方举办了“多模态文本智能大模型前沿技术与应用”论坛,汇聚了学术界的顶尖智慧,更抛出了一颗重磅“炸弹”——“多模态文本智能技术”概念。
184 1
|
2月前
|
存储 缓存 算法
淘宝买家秀 API 深度开发:多模态内容解析与合规推荐技术拆解
本文详解淘宝买家秀接口(taobao.reviews.get)的合规调用、数据标准化与智能推荐全链路方案。涵盖权限申请、多模态数据清洗、情感分析、混合推荐模型及缓存优化,助力开发者提升审核效率60%、商品转化率增长28%,实现UGC数据高效变现。
|
3月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
334 2
|
3月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1669 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)

热门文章

最新文章