MustDrop:多阶段去除冗余视觉token,提升多模态大模型推理效率

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 本文提出了一种高效的多模态大模型,多阶段去除冗余视觉token——MustDrop。多模态大模型中的视觉tokens通常表现出显著的空间和时间冗余,并且大模型的大部分输入令牌是视觉tokens,这极大程度上影响了多模态大模型推理效率。

论文标题:

Multi-Stage Vision Token Dropping: Towards Efficient Multimodal Large Language Model

单位:

本文由国防科技大学、合肥工业大学、上海交通大学共同完成。

论文链接:

https://arxiv.org/pdf/2411.10803

模型链接:

https://www.modelscope.cn/models/TingLiu20/MustDrop

论文解读

本文提出了一种高效的多模态大模型,多阶段去除冗余视觉token——MustDrop。多模态大模型中的视觉tokens通常表现出显著的空间和时间冗余,并且大模型的大部分输入令牌是视觉tokens,这极大程度上影响了多模态大模型推理效率。最近一些工作专注于去除不重要的视觉tokens,但是这些方法只专注于视觉编码阶段或者大模型的Prefill阶段,忽略了其他阶段也存在冗余的视觉tokens。

本文作者分析了视觉tokens在视觉编码器、大模型Prefill以及Decode阶段的

特点,提出了一种多阶段逐步去除视觉tokens的方法MustDrop。通过对每个阶段量身定制的策略,MustDrop基于LLaVA降低了约88.5%的FLOPs。

1. 多个阶段的冗余性分析

1.1视觉编码阶段。此阶段通常采用ViT结构,擅长于提取图像中重要的语义信息,例如空间位置和形状等。空间/时序邻近的视觉tokens具有很高的相似性,这属于空间冗余信息。本文认为在视觉编码阶段可以专注于去除空间层面的冗余性。由于此阶段缺失文本信息,不能大量去除视觉token,避免丢失重要信息。此外,视觉编码器能提取到图像中最重要的tokens,这类tokens应该在整个多模态大模型阶段中被保留。

1.2 Prefill阶段。此阶段为视觉和文本模态的交互,计算所有视觉tokens和文本tokens之间的注意力。文本信息的引入,这为大量降低无效视觉tokens创造了条件。本文认为全局文本和局部文本对判断无效的视觉token有不同的意义。

1.3 Decode阶段。此阶段基于Prefill阶段学习的知识生成文本tokens。由于视觉tokens在Prefill阶段充分与文本信息进行了交互,在Decode阶段其重要性逐渐退化。如图4所示,视觉tokens在Decode阶段的第二层后占了极少的注意力。这表明Decode阶段的KV Cache可以被进一步压缩。

2. 方法描述

2.1空间冗余融合

本文在视觉编码阶段提出了局部空间融合模块LSM,无需依赖额外的网络。LSM首先将视觉token塑造成2D的栅格,然后采用固定形状的正方形window动态检查视觉token的空间冗余性。如果window内的相似度超过阈值,其区域将会被判定是空间冗余的,并被融合为一个具有代表性的token。

2.2 重要区域保留

作者认为无论在多模态大模型哪个阶段,有一类视觉token是天然重要的。随着ViT的层越深,其CLS学到的视觉全局信息越丰富。根据这一特性,作者利用CLS和其他视觉tokens之间的注意力值确定天然重要的视觉token集合S。属于S集合的视觉token将一直保留在后续阶段。

2.3 文本引导的双注意力过滤

Prefill阶段可以利用文本信息,大量删除无效的视觉token,但如何精准确定无效的视觉tokens具有挑战性。作者提出一种双注意力过滤机制,包含全局注意力过滤测策略和局部注意力策略。首先,作者计算每个视觉token和全局文本之间的关联分数,分数低的视觉token将会被删除。然而,整个句子包含多个文本token,削弱了某些及其重要的文本token的重要性。这导致全局文本注意力机制存在“假性”判断,被判断为不重要的视觉tokens可能是重要的。因此,作者提出了局部注意力过滤机制,分别计算每个文本token和视觉token之间的关联分数。当这两种注意力过滤策略均认为某个视觉token不重要时,才会彻底删除此视觉token。

2.4 输出注意的cache策略

为了避免重复计算,Prefill阶段的KV Cache存储了token的K V值,可以加速生成文本token,但也造成了存储的负担。如图4所示,在decode阶段,视觉token在模型第二层后的重要性迅速衰减。作者根据此特性提出了输出注意的cache策略,仅仅保留了在视觉编码器阶段认定的重要视觉tokens(S集合),剩余的视觉token的K V被删除。此策略进一步降低了Decode阶段的成本。

3. 论文实验

基于图像的多模态任务,作者选取了VQA任务作为验证,如表1所示。ToMe是仅仅在视觉编码器阶段减少tokens的经典方法。FastV和SparseVLM是在多模态大模Prefill阶段的方法。本文主要与这3类方法进行了对比。原图像在576 token的情况下,分别设定了保留192、128和64个tokens,MustDrop均超过了这三类方法。

如表2,为了验证方法的泛化性,作者在基于视频的多模态问答任务上也做了验证。在保留50%左右的设定下,MustDrop超越了FastV。

关于高效性,作者对比了SparseVLM,如表7。在同样保留320个tokens的情况下,推理总时间比SparseVLM快3分钟。此外,MustDrop比目前最快的FlashAtten注意力策略更快。MustDrop和FlashAtten兼容后能进一步加快速度。此外,MustDrop占据的Peak Memory是最小的。

点击链接阅读原文:多阶段高效多模态大模型

目录
打赏
0
11
11
0
227
分享
相关文章
大语言模型的解码策略与关键优化总结
本文系统性地阐述了大型语言模型(LLMs)中的解码策略技术原理及其应用。通过深入分析贪婪解码、束搜索、采样技术等核心方法,以及温度参数、惩罚机制等优化手段,为研究者和工程师提供了全面的技术参考。文章详细探讨了不同解码算法的工作机制、性能特征和优化方法,强调了解码策略在生成高质量、连贯且多样化文本中的关键作用。实例展示了各类解码策略的应用效果,帮助读者理解其优缺点及适用场景。
146 20
大语言模型的解码策略与关键优化总结
NeurIPS 2024:杜克大学&谷歌提出SLED解码框架,无需外部数据与额外训练,有效缓解大语言模型幻觉,提高事实准确性
在NeurIPS 2024上,杜克大学和谷歌团队提出Self Logits Evolution Decoding(SLED),旨在提高大语言模型(LLMs)的事实准确性。SLED通过对比模型早期层和最终层的logits,利用内部潜在知识增强输出准确性,无需外部知识库或额外微调。实验显示,SLED能显著提升多选题、开放生成等任务的准确性,最高提升达20%,且延迟开销极低。该方法具有创新性和有效性,但也存在实现复杂、计算开销等挑战。
22 2
S3FT选择性自监督微调:通过智能选择训练样本提升大模型整体表现
选择性自我监督微调(S3FT)是一种创新的大语言模型微调方法,通过语义等价性判断器识别模型生成的正确响应,并结合标准答案优化模型。相比传统监督微调,S3FT在特定任务上表现更优,显著提升跨域泛化能力,有效缓解灾难性遗忘问题。实验结果显示,S3FT在多个基准测试中表现出色,尤其在阅读理解和领域外任务上优势明显。
98 70
S3FT选择性自监督微调:通过智能选择训练样本提升大模型整体表现
ModernBERT:英伟达开源的新一代编码器模型,性能超越 SOTA,通过去除填充和序列打包减少计算浪费,提高训练和推理的效率
ModernBERT 是由英伟达和 HuggingFace 等机构联合开源的新一代编码器模型,支持长上下文处理,性能超越 SOTA,适合多种自然语言处理任务。
150 7
ModernBERT:英伟达开源的新一代编码器模型,性能超越 SOTA,通过去除填充和序列打包减少计算浪费,提高训练和推理的效率
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
MILS 是 Meta AI 推出的零样本生成高质量多模态描述方法,支持图像、视频和音频的描述生成,无需额外训练。
135 34
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
知识蒸馏技术原理详解:从软标签到模型压缩的实现机制
**知识蒸馏**是一种通过性能与模型规模的权衡来实现模型压缩的技术。其核心思想是将较大规模模型(称为教师模型)中的知识迁移到规模较小的模型(称为学生模型)中。本文将深入探讨知识迁移的具体实现机制。
405 12
知识蒸馏技术原理详解:从软标签到模型压缩的实现机制
Coconut:基于连续潜在空间推理,提升大语言模型推理能力的新方法
Coconut提出了一种新的大语言模型推理范式,通过在潜在空间中运算,利用隐藏层生成的连续思维状态取代传统文本推理。该方法采用广度优先搜索探索多条路径,避免单一路径局限,显著提升逻辑任务性能并减少token消耗。 Coconut结合“语言模式”和“潜在模式”动态切换,通过多阶段课程学习优化推理能力,在复杂规划任务中表现卓越,尤其在GSM8k和ProsQA等任务中优于传统模型。实验表明,Coconut能有效捕获中间变量,减少幻觉错误,具备更强的推理规划能力。
122 2
Coconut:基于连续潜在空间推理,提升大语言模型推理能力的新方法
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
Diff-Instruct 是一种从预训练扩散模型中迁移知识的通用框架,通过最小化积分Kullback-Leibler散度,指导其他生成模型的训练,提升生成性能。
90 11
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
|
4月前
|
突破视频多模态大模型瓶颈!合成数据立大功,项目已开源
针对视频多模态大模型(LMMs)因缺乏高质量原始数据而发展受限的问题,研究人员开发了LLaVA-Video-178K数据集,包含178,510个视频,涵盖详细字幕、开放性问题回答和多项选择题。此数据集通过结合GPT-4o和人工标注,实现了广泛视频来源、动态视频选择、递归字幕生成及多样化任务设计。基于此数据集训练的LLaVA-Video模型,在视频字幕、问答等任务上表现优异,且已开源,助力视频LMM的研究与发展。
110 7
大语言模型数据增强与模型蒸馏解决方案
本方案以通义千问2(Qwen2)大语言模型为基础,为您介绍大语言模型数据增强和蒸馏解决方案的完整开发流程。

热门文章

最新文章