做 AI 应用的人都知道:上下文越长,模型 prefill(预填充)成本越高。很多模型甚至对超长上下文采用阶梯式计费,Agent 越频繁翻历史记录,账单越容易失控。于是工程上只能不断做截断、摘要和分层检索。DeepSeek V4 则换了个思路:既然长上下文不可避免,那能不能把它做到足够便宜又高效?
DeepSeek V4支持1M上下文,不仅定价低, 且定价 Pro 未命中缓存输入与命中缓存输入的两个价格倍率达到 120 倍。相比之下,其他模型通常只有约 10 倍。这个才是更有意思的。
真正狠的不仅单价,还有缓存价差
看下面这张表就比较直观了,DeepSeek V4 模型相较于其他模型都更便宜。
模型 |
缓存命中输入/1M tokens |
缓存未命中输入/1M tokens |
输出/1M tokens |
DeepSeek V4-Flash |
¥0.02 |
¥1 |
¥2 |
DeepSeek V4-Pro (折扣价) |
¥0.025 (原价 ¥0.1) |
¥3 (原价 ¥12) |
¥6 (原价¥24) |
Kimi K2.6 |
¥1.10 |
¥6.50 |
¥27.00 |
虽然 DeepSeek V4-Pro 原价¥24,但在 DeepSeek V4 发布公告中提到预计下半年将会大幅下降,这为后续降价也留下了想象空间。公告原文如下:
*受限于高端算力,目前 Pro 的服务吞吐十分有限,预计下半年昇腾 950 超节点批量上市后,Pro 的价格会大幅下调。
这不免猜想,这次折扣价是不是就是一场价格预演,会不会当前的折扣价就是降价后的原价? :)
对比谁更便宜不是主要的,更值得往下看的是第二张表:输入价格,未命中缓存输入/命中缓存输入 的价格倍率。
模型 |
缓存未命中输入 |
缓存命中输入 |
未命中 / 命中 |
DeepSeek V4-Pro |
¥3 |
¥0.025 |
120 倍 |
DeepSeek V4-Flash |
¥1 |
¥0.02 |
50 倍 |
Kimi K2.6 |
¥6.50 |
¥1.10 |
约 6 倍 |
这个未命中 / 命中的输入价格倍率的冲击力比单价更大,DeepSeek V4-Pro 的输入价格倍率达到 120。
大多数 AI 应用不是每次都喂全新的 1M tokens。更常见的情况是,一个项目的代码库、一本合同、一套文档、几十轮对话历史,在连续多次请求里反复出现。第一次读入虽然是缓存未命中,但后面不断追问、修改、让模型执行任务时,大都可能命中缓存。
倍率越大,越鼓励开发者把稳定上下文沉淀下来,而不是每次请求都重新截断、摘要。
关键的问题是:DeepSeek 只是想定价低些少赚点,还是它真的把底层成本降下来了?这个问题我在 DeepSeek V4 技术报告中找到一些可能的答案。
混合注意力又省又快
DeepSeek V4 技术报告提到在传统注意力机制里,计算成本随着上下文窗口增长,使得超长上下文和推理过程面临难以逾越的瓶颈。模型生成下一个 token 时,需要回看前面的全部 token,这意味着序列越长, prefill 越贵、计算越耗时、显存越紧。很多模型不是不会做 1M,而是因为太贵、太慢、太吃资源。
DeepSeek V4 的主要架构创新就是把注意力机制换成了 CSA(Compressed Sparse Attention,压缩稀疏注意力) + HCA(Heavily Compressed Attention,重度压缩注意力) 的混合注意力架构,以此解决上述问题。
CSA架构
图: CSA 架构图
CSA 架构图说明:
1. 局部路径:滑动窗口
位于图左侧,这部分保留了一小部分未压缩的最近邻 KV 缓存(Sliding Window KV Entries)。保证了模型对最新对话内容的精确感知,避免压缩带来的局部细节丢失。
2. 记忆路径:压缩与选择
图中央的主体部分,负责处理海量的历史上下文:
1)Token-Level Compressor:将KV cache每 m 个一组进行压缩(通常 m=4)。
2)Compressed KV Entries:压缩后的结果,使 KV Cache 的存储压力直接降低到原来的 1/m(若m=4 则约 25%)。
3)Top-k Selector:Top-k 选择器,在压缩后条目中进一步筛选,只选出与当前 Query 最相关的 k 个。这是“稀疏(Sparse)”的体现,大幅降低了计算量。报告中提到,DeepSeek V4 相比 V3.2,选择了更小的 k 值来提升处理效率。
3. 导航路径:轻量索引器
图右侧虚线框中部分,Lightning Indexer是一个极其轻量级的子模块。它不参与最终的结果生成,只负责告诉“Top-k 选择器”哪些压缩后的历史片段是重要的。因为它是轻量级的,所以即使在长序列下搜索速度也极快。
Indexer Queries & Keys:它使用较低精度(报告中提到为 FP4)的计算(如图中的 Multi-Query Attention)来快速生成 Index Scores(索引评分)。
4. 最终阶段:拼接与注意力计算
1)Concatenation:将左侧的“滑动窗口条目”和中间筛选出的“重要历史条目”拼接在一起。
2)Shared Key-Value Multi-Query Attention:Query 最终只对这部分精挑细选后的 KV 集合进行注意力计算。
DeepSeek-V4 通过 CSA 架构实现了整体的效率提升:
1. 省显存:通过m倍的压缩 KV cache,极大缓解了显存压力。
2. 省计算:通过 Top-k 选择器的稀疏选择,让模型不必看所有历史条目看,只需要看最重要的前 k 个条目。
3. 保效果:通过滑动窗口保留局部精度,通过轻量索引器实现跨越长距离的精准召回。
HCA架构
图: HCA 架构图
HCA 架构说明:
1. 更激进的压缩率
报告中提到 HCA 采用的压缩率是 m' ,它远大于 m,如取值 128甚至更高。它将极长的一段原始 Token 压缩成极少量的 KV 条目。
2. 滑动窗口(Sliding Window)
和 CSA 一样,HCA 也保留了左侧的 Sliding Window KV Entries。无论全局压缩得多么厉害,模型须对“刚刚说过的话”保持精准记忆。滑动窗口确保了模型在处理局部逻辑、语法衔接时不会因为HCA重度压缩而“降智”。
3. HCA 与 CSA 的互补
CSA 虽然很准,但如果相关信息分布得极其零散,Top-k 选择可能会漏掉一些微弱但关键的背景信号。通过HCA 提供了一个全局的、低分辨率的视野,让模型可以在一次计算中看到整个历史序列的轮廓,虽然模糊,但胜在完整。
4. 最终阶段
将滑动窗口的局部细节和重度压缩后的全局概括拼接在一起进行注意力计算。
做个比喻, CSA 让 V4 能快速翻到书里具体的那一页查找公式,而 HCA 让它脑子里始终装着整本书的大纲。两者结合,才实现了既快又准的百万级对话能力。
也就是说,模型不是简单粗暴地“压缩一切”,而是在全局记忆和局部细节之间做了分工。这就是 DeepSeek V4 能把 1M 上下文做得又便宜又高效的第一层原因:不仅混合多种方式省显存,也省计算。
KV cache 存储在磁盘上
对于大模型推理,生成可供后续生成 token 使用的 KV cache 的这个过程通常叫 prefill(预填充),上下文越长 prefill 越贵。
报告在推理部分提到,它为混合注意力产生的异构 KV cache 设计了定制 KV cache 结构,并使用 on-disk KV cache storage (KV cache 存储在磁盘上)来消除共享前缀请求的重复 prefilling。一般来说磁盘的存储成本是远低于显存的。
对于 CSA/HCA 的压缩 KV 条目,系统会把它们保存到磁盘。当后续请求命中已存储前缀时,直接读取并复用对应的压缩 KV 条目,直到最后一个完整压缩块。模型不需要为大段共享前缀重新做完整 prefill,它复用的是已经算好的压缩 KV 状态。换句话说,缓存命中不是少收一点输入费,而是少做一大块原本很贵的计算。
图:定制的 KV cache 结构图
定制 KV cache 结构图说明:
它将缓存分成了两个部分:State Cache(状态缓存) 和 KV Cache(经典压缩缓存)。
1. State Cache:暂存区
图左侧,这里存放的是尚未被压缩或者必须保持原样的数据。
1)SWA KV(Sliding Window Attention):存放滑动窗口最近的原始 KV 状态。这保证了模型对当下对话的最高精度。
2)Uncompressed KV State:这是一个缓冲区。因为 CSA 和 HCA 都是按块(Block)压缩的(比如每 4 个或 64 个 Token 压成一个块),那些还没凑够一整块的 Token 就先放在这个缓冲区里。
2. KV Cache:存档区
图右侧,这里存放的是已经过压缩处理的历史信息。分层存储,不同层(Layer)存储的内容不同。
1)CSA Indexer KV:对应 CSA 架构图里轻量索引器需要的索引数据。
2)CSA Main KV:对应 CSA 压缩后的主要数据。
3)HCA KV:对应 HCA 架构图里重度压缩后的全局数据。
3. 对齐 CSA 与 HCA 压缩算法
报告中还提到为了让内存对齐,系统以CSA压缩率(m)和HCA压缩率( m')的最小公倍数个原始 Token 数量为一个基本块进行管理。这种设计通过“整存整取”的方式,帮助不同压缩率的块更好地对齐高性能注意力内核( attention kernel) 的访问模式。
DeepSeek-V4 通过这种设计实现了:
1. 极高的显存效率:大部分历史数据通过 HCA/CSA 压缩后,占用的空间只有原来的几十分之一。
2. 动态无缝衔接:新产生的 Token 先进 State Cache 保持精度,凑够一个块(Block)后再压缩进 KV Cache 存档。
3. 异构存储对齐:通过最小公倍数逻辑,完美解决了两种不同压缩倍率算法在同一个内存池里的共存问题。
所以,DeepSeek V4-Pro 的低价与两个输入价的 120 倍倍率,至少有以下三层支撑:
1. CSA/HCA 先把 KV cache压缩变小,使其足以适合落盘保存与复用;
2. 低精度存储与计算继续降低缓存和计算成本,如 CSA 轻量索引器中采用 FP4 精度、Top-K 选择器采用更小的 k 值;
3. 落盘保存压缩的KV cache,命中缓存时系统可以读取已计算好的压缩 KV,减少重复 prefill,而不是把同一段长前缀一遍遍重新跑过模型。
结语
DeepSeek V4 的价格已经够有冲击力了,这次更有意思的是,技术报告里提到的: 1M token 场景下,相比 DeepSeek-V3.2,DeepSeek V4-Pro 即使激活参数更多,也只需要约 27% 的单 token FLOPs 和 10% 的 KV cache;V4-Flash 更进一步,只需要约 10% 的单 token FLOPs 和 7% 的 KV cache。这在价格表里体现的是低价与两个输入价 50~120 倍的差异。
对于开发者来说,如果你的AI应用有大量共享前缀、长上下文、多轮任务和 Agent 工作流,DeepSeek V4 的价格非常值得单独做成本与效果评估。它便宜的不只是单次调用,而是把“重复读同一批上下文”场景的成本压到了一个新位置。
参考链接
- "DeepSeek API Docs: Models & Pricing"
https://api-docs.deepseek.com/quick_start/pricing - "Kimi API 开放平台:多模态模型 Kimi K2.6 定价"
https://platform.kimi.com/docs/pricing/chat-k26 - "DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence"
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf