Key-Value (KV)缓存已成为大语言模型(LLM)长文本处理的关键性能瓶颈。当前研究尚未充分关注解码阶段的优化,这一阶段具有同等重要性,因为:
1、对需要完整上下文的场景,预填充阶段的过度压缩会显著降低模型的推理理解能力
2、在长输出推理任务中存在重要特征的显著偏移现象
这篇论文提出SCOPE框架,通过分离预填充与解码阶段的KV缓存优化策略,实现高效的缓存管理。该框架保留预填充阶段的关键KV缓存信息,同时引入基于滑动窗口的新型策略,用于解码阶段重要特征的高效选取。
关键发现
KV缓存的推理过程分析
LLM的每次请求包含两个独立阶段:预填充阶段处理完整输入提示以生成初始输出标记;解码阶段通过迭代方式逐个生成后续输出标记。
预填充阶段分析
下图展示了在完整解码缓存条件下,三个任务在不同预填充阶段压缩比率下的性能表现:
Long-Bench中的PassageRetrieval-en和HotpotQA任务表现出显著的压缩容忍度:即使在20%的预填充阶段压缩比率下,模型仍能保持与完整缓存相近的性能水平,证实了模型在高压缩率下维持上下文理解能力的鲁棒性。然而在LONGGENBENCH的GSM8k+任务中,同样的20%压缩率导致准确率下降约95%
实验结果表明:对于依赖完整上下文的推理任务,预填充阶段的过度压缩会导致显著的性能损失
解码阶段分析
下图描述了在解码步骤1、300和500时,基于前15%注意力分数选取的重要特征在0、13和31层的位置分布:
观察发现,各层中保留的重要特征主要源自解码阶段生成的KV缓存,在长输出任务中,随着输出序列延长,特征偏移现象愈发显著。这一现象要求在保持预填充阶段识别的重要特征的同时,对解码阶段新出现的重要特征实施有效管理。数据表明,长文本生成的解码阶段采用贪婪算法可能引发重要特征的显著偏移
KV缓存预算分配优化
下图呈现了LONGGENBENCH中GSM8k+样本第13层的注意力热力图,以及注意力分数与生成标记位置的对应关系:
图中最左侧和最右侧分别对应预填充和解码阶段。对于需要并行处理多个问题的推理任务,准确定位当前预测位置至关重要。如图所示,这些关键信息可通过贪婪算法识别的重要特征有效捕获。预填充和解码阶段的KV缓存预算需要独立分配以实现最优性能。这一发现启发了SCOPE框架的设计理念:通过解耦预填充和解码阶段的压缩过程,实现KV缓存预算的精确分配,在保留预填充阶段全部KV缓存的同时,优化缓存预算的重分配效率
方法论
KV缓存压缩机制重构
初始化过程
KV缓存压缩的核心在于基于预设缓存预算进行动态调整。本文构建了缓存池Φ,其包含两个子集:存储预填充阶段KV缓存的Φp和存储解码阶段KV缓存的Φd。缓存池在时间步t实时更新,记为Φt。采用广泛验证的贪婪算法函数ΨK(Att)从给定注意力权重Att中筛选Top-K KV缓存
预填充阶段设计
定义输入提示张量P ∈ RM×D,其结构为P = {P1,P2, . . . ,PM},其中:
- Pi表示第i个标记的嵌入向量
- M为输入标记数量
- D为模型隐藏维度
键值张量的计算公式如下:
其中:
- WK,WV ∈ RD×D分别为键和值的投影权重矩阵
- KV对表示为KPVP
- 注意力权重AttP通过P和KPVP计算得出,预填充阶段的压缩表达式:
其中:
·表示张量连接操作
函数Ψα1(AttP)从AttP[: −α2]中选择具有最高Top-α1注意力权重的KV缓存
解码阶段实现
解码阶段复用预填充阶段的KV缓存,并通过序列生成过程持续更新,对于时间步t处的新标记张量Xt,t∈{1,T },键值计算如下:
过程中,KtVt与缓存池Φ中的历史KV缓存进行连接,形成当前时刻的KV对。随后与查询张量Xt计算得到注意力权重Attt
- 本方法与现有KV压缩方案的核心区别在于Φp和Φd在缓存池Φ中的动态分配机制
SCOPE框架详解
针对解码阶段设计了三种优化策略:滑动窗口、自适应调整和不连续更新,这些策略均专注于Φd的优化
滑动窗口机制
通过动态调整解码必要历史窗口β1和解码局部窗口β2实现解码阶段的KV缓存压缩:
- β1负责捕获当前预测位置的上下文信息
- β2保存与历史标记高度相关的全局特征
滑动策略在t > M + β1 + β2时触发,通过函数Ψβ1 (Attt[α1 + α2 : −β2])实现对Φd的定向更新,同时保持Φp不变。该机制通过限制选择函数Ψ的操作范围(从α1 +α2开始的Attt),有效规避了预填充阶段注意力权重的干扰
自适应调整策略
针对解码生成标记长度较短的情况,引入动态调整机制,避免过长的解码必要历史窗口β1导致的资源浪费。设计了基于时间步骤t和最大长度T的自适应函数,用于动态调整β1长度,其中T ≫ β1 + β2。窗口大小从基准值β2起始,随时间步t线性增长:
特征:
- 当t < T时,Φdt的预算规模为β2+(t−β2)·β1/ T−β2
- 该设计有效优化内存利用率,因比率(t−β2 (T−β2)恒小于1
- t达到T时,Φdt规模收敛于β1 + β2
- 此调整机制与LLM的自回归编码特性高度契合,在不引入额外超参数的前提下提升资源利用效率
不连续更新机制
传统策略中,Top-K选择操作ΨK(Att)需执行T − β2次,这种频繁的GPU I/O操作带来显著性能开销。基于连续查询倾向于选择相似键的特性,提出不连续更新策略:
1、将Top-K选择操作ΨK(Att)的执行频率优化为每T−β2/β1间隔执行一次ζ
2、相比于传统的逐步执行方式,显著降低了计算开销
实验评估
实验环境配置
基于两个主流开源大语言模型构建实验平台:
- LLaMA-3.1–8B-Instruct
- Mistral-7B-Instruct-v0.3
Φp参数配置:
- LongGenBench-4K场景:α1 + α2 = 2048(约占输入长度60%)
- LongGenBench-8K场景:α1 + α2 = 4096(约占输入长度60%)
- α2统一设置为8
- β1 + β2参数设置:- 4K输出配置:512- 8K输出配置:1024- β2固定为256,用于适配答案中的推理链(Chain-of-Thought)长度,避免序列过短引发的性能退化
性能评估结果
基准系统对比分析
下表展示了在LONGGENBENCH基准测试中,基于LLaMA-3.1–8B-Instruct的SCOPE三种策略与现有方法的性能对比:
实验结果分析:
SCOPE框架的三种策略在所有解码压缩方案中均实现最优性能,其中针对内存使用和传输优化的不连续策略表现尤为突出。在高难度GSM8K+/GSM8K++任务上,SCOPE通过保留预填充阶段KV缓存的策略展现显著优势,而其他压缩方法出现明显的性能衰减。PyramidInfer与H2O的性能差异不显著,表明在长序列输出任务中,层间稀疏性特征的影响相对有限
预填充方法集成验证
下表呈现了LLaMA3.1-8B在LONGGENBENCH-4K的GSM8K+任务上的方法集成实验数据:
关键发现:
- 部分优化策略在仅使用65%原始KV缓存的情况下,实现了超越完整缓存的性能表现
- PyramidKV(SnapKV的变体)通过跨层预算重分配的尝试未能带来显著改善,验证了前期实证研究结果
- 预填充阶段保留的KV缓存表现出类似StreamingLLM中"注意力汇聚点"的特性
深入分析
必要特征损失的缓解效果
H2O等统一压缩方法由于重要特征偏移导致关键KV缓存损失,影响了上下文理解能力,下图描述了预测位置与模型性能的关联关系:
数据显示H2O在后期预测中出现显著性能下降,而SCOPE的三种策略有效缓解了这一问题,证实了预填充KV缓存保留策略的有效性
关键参数影响分析
解码阶段的两个核心参数:
- KV缓存预算 β1+β2
- 特征选择算法 ΨK(Att)
下图展示了基于两种主流top-K选择算法对预算参数进行缩放的实验结果:
与预填充阶段相比,解码阶段展现出更强的压缩容忍度:25%的压缩率仅导致15%的性能降低,而类似压缩率在预填充阶段会导致GSM8k+任务性能的显著下降
系统效率评估
基于滑动窗口策略的自适应和不连续优化显著提升了内存效率,具体数据如下表:
相较于完整缓存和单一预填充压缩方案,本文提出的方法和统一压缩策略通过降低KV缓存存储量,有效缓解了内存压力,自适应策略通过动态预算调整机制进一步优化了系统性能。
泛化能力验证
下图展示了在β1 + β2 = 512配置下,∞BENCH中En.Sum任务的实验结果:
实验表明SCOPE的三种策略均优于完整缓存配置,充分验证了该框架的泛化能力
局限性分析
SCOPE框架通过分离预填充和解码阶段实现长文本生成任务的优化,在两个阶段均采用Top-K算法进行特征选择。当前框架存在以下待改进方向:
1、预填充阶段仍沿用传统top-K算法,未来研究可探索分块处理或其他新型技术,以提升历史标记的估计精度
2、解码阶段每步执行Top-K操作导致频繁的GPU I/O开销。虽然不连续策略在一定程度上优化了操作频率,但仍可通过减少I/O数据量进一步降低系统延迟
3、当前SCOPE主要验证了文本模态的长输出任务优化效果。框架具有扩展到视觉领域的潜力,特别是在多图像生成等需要大量KV缓存的任务场景
总结
SCOPE框架针对LLM长文本生成中的KV缓存优化问题提供了系统性解决方案
通过实验观察发现两个关键问题:
预填充阶段的过度压缩对推理能力造成显著影响,解码过程中存在重要特征的偏移现象
SCOPE通过以下机制解决上述问题:
保持预填充阶段必要的KV缓存完整性;引入滑动窗口策略实现解码阶段KV缓存的高效管理
大规模实验验证表明:
SCOPE仅使用35%原始内存即可达到接近完整KV缓存的性能水平,并且保持了与现有预填充压缩方法的良好兼容性
https://avoid.overfit.cn/post/e5ac0b501a1e4a4fb62eedcf49cd8675
作者:SACHIN KUMAR