DeepSeek V4 这次发布了两款模型:DeepSeek-V4-Pro 和 DeepSeek-V4-Flash
整体看下来,我的第一反应是:很有魄力呢
基本符合预期,甚至在某些地方略超预期。Pro 是 1.6T 总参数、49B 激活参数;Flash 是 284B 总参数、13B 激活参数。两个模型都支持 1M 上下文,也都提供 thinking / non-thinking 两种使用方式。更关键的是,这次不是只发 API,也不是只发论文,而是模型权重、技术报告、API 文档、价格、Coding Agent 接入方式一起放出来。
某种意义上,这是目前开源模型里很少见的一次“系统级发布” 也是带有大众预期的一次

先说模型本身
这次 DeepSeek V4 的主线其实很明确:百万上下文、Agentic Coding、更低推理成本。
DeepSeek-V4-Pro 是真正意义上的万亿参数级模型,官方口径是 1.6T 总参数,单 token 激活 49B。DeepSeek-V4-Flash 则是面向成本和速度的版本,284B 总参数,单 token 激活 13B。两个模型都支持 1M context,最大输出也给到了非常夸张的 384K。

从架构上看,V4 不是简单把 V3.2 做大,而是围绕长上下文做了比较完整的一轮重构。它用了 Hybrid Attention Architecture,把 CSA(Compressed Sparse Attention)和 HCA(Heavily Compressed Attention)组合起来,核心目标就是降低百万上下文下的计算成本和 KV Cache 压力。
官方给了一个很有意思的说法:在 1M context 下,V4-Pro 单 token 推理 FLOPs 大约只有 V3.2 的 27%,KV Cache 大约只有 V3.2 的 10%。这个数字如果能在真实生产里稳定复现,其实意义很大。因为长上下文真正贵的地方,不只是模型参数,而是随着上下文拉长以后,推理成本和显存成本会非常快地膨胀。
当然,开源是一回事,能不能部署是另一回事。
我大概按“私有化部署 + 1M 上下文 + 可用并发 + 稳定生产冗余”估了一下,如果想比较完整地吃到 V4-Pro 的 1M 上下文能力,基本不是几张卡能解决的事情。哪怕使用 H20 这类卡,最终也很可能是 64 张级别起步,甚至还要看推理框架、量化方式、并发目标和是否保留足够的 KV Cache 空间。
这不是官方数字,只是一个工程侧的粗略估算。但结论很直接:这个规模的模型,开源归开源,真正能私有化跑满的玩家不会太多。可能也就少数大厂、云厂商、少数有强算力预算的企业客户能玩得起来。
可怕的数字…
训练方式:不是单点升级,而是整套路线升级
DeepSeek V4 的训练路线也比较值得看。
预训练方面,官方披露的是超过 32T tokens 的语料,包含数学、代码、网页、长文档以及其他高质量数据。Pro 训练到 33T tokens,Flash 训练到 32T tokens。序列长度是逐步拉长的,从 4K 到 16K,再到 64K,最后到 1M。这个路径很合理,直接从短上下文跳到百万上下文并不现实,训练稳定性和数据组织都会出问题。
优化器上,它使用了 Muon + AdamW 的混合方案。大多数参数走 Muon,embedding、prediction head、RMSNorm 这类部分继续使用 AdamW。这个选择也说明 DeepSeek 并不是只在模型结构上做变化,而是在训练稳定性和收敛效率上也做了不少工程化尝试。
后训练部分更有 DeepSeek 自己的味道。
它先训练数学、代码、Agent、指令遵循等不同领域专家模型,每个专家大致走 SFT + GRPO 的路径。然后再通过 OPD(On-Policy Distillation)把多个专家能力统一到一个模型里。
这和传统“一个模型一路训到底”的感觉不一样,更像是先把多个能力方向分别拉高,再把它们合并成一个统一模型。这里的核心问题不是“有没有蒸馏”,而是它到底能不能在统一模型里保住多个专家能力,同时不产生明显的能力互相干扰。
从目前官方 benchmark 看,至少结果是比较好看的。
我自己测了几个问题
各种常规测评榜已经很多了,这篇就不再重复堆 MMLU、GPQA、SWE-bench 这类分数。它们有参考价值,但我更关心一些自己长期用来测试模型的小问题。
第一个是我个人很喜欢拿来喂给各种大模型的穷举题。第一次在大模型上看到比较稳定通过,还是 GPT-o3。
是否存在一个6个节点的树,可以将其每条边赋予一个正整数权重作为长度,使得任意两点间的距离(即路径上所有边的长度之和)互不重复且恰好组成集合{1, 2, 3....15}?
DeepSeek-V4-Pro 这次表现明显比之前强。整个思考速度、解题能力都有提升,而且保留了我一直比较喜欢的 DeepSeek 这条线的能力:思考过程中可以稳定调用 tools。大概一分钟左右跑出了答案,符合预期

第二个最常见的洗车题,额 , 0 压力, 秒出结果, 无讨论价值

第三个是稍微有点黑暗版本的脑筋题。
如何只用一刀把四个一模一样的橘子平均分给四个小朋友
它甚至考虑到了“刀小朋友”这种极端场景。这个答案当然不太符合道德伦理哈,但从模型推理角度看,它说明穷举场景确实比较到位。它没有只沿着常规谜语答案走,而是把题面里潜在的异常解释也扫了一遍
我还蛮喜欢这个逻辑的。

第四个是编程能力。我把它接入 Claude Code 试了一下,顺手让它写了一个图床功能。
整体效果还行,但我个人感受是,仍然明显不如 GPT-5.4 和 Claude Opus 4.6。在两轮对话后,它生成的产物开始出现问题,虽然下一轮很快修复了,但这种情况在我使用 GPT-5.4 和 Opus 4.6 时几乎没有遇到过。
所以结论也比较克制:V4-Pro 的 Coding Agent 能力很强,已经进入一线可用区间,但如果拿它和当前最顶级闭源模型比,稳定性和连续多轮复杂任务保持能力还是有差距

1M 上下文的真正价值
我觉得这次最重要的点不是榜单,而是 1M context。
目前公开可用、权重开放、参数规模达到万亿级、还支持 1M 上下文的模型,本身就非常少。更不用说 DeepSeek 这次还把价格压得很低。
这个价钱还要啥自行车。
1M 上下文意味着什么?最直观的说法是,它一次性可以读完一本《红楼梦》。但这只是一个象征。真正有生产价值的地方在于长文档理解和长文本生成。
比如合同审核、标书生成、投标文件比对、尽调材料分析、长篇研究报告输出、复杂项目文档归纳,这些场景以前都需要 RAG、切片、召回、重排、摘要压缩配合起来做。不是不能做,而是链路很长,每一层都会带来误差。
1M 上下文不会让 RAG 消失,但它会改变很多应用的工程结构。
过去我们要非常精细地设计 chunk、召回策略、上下文拼接策略。现在对于一部分中低频、高价值、长文本场景,可能可以更直接地把大段材料塞进去,让模型在一个更完整的上下文里推理。这对 ToB 场景很有吸引力。
尤其是 DeepSeek 的文本能力一直是它的强项。
这点很难完全通过 benchmark 表达清楚。深度使用过就会发现,它的中文输出非常像人,尤其适合报告、邮件、方案、总结、润色、文书类任务。我个人写很多报告和邮件时,也一直挺喜欢用 DeepSeek-V3.2。它不是那种过度模板化的模型,文字有一点自然的松弛感。
如果 V4 在 V3.2 文本能力基础上继续增强,同时给到 1M 上下文,那它在长文本生产场景里确实会很有竞争力。
DeepSeek 的位置
上一次版本还是 DeepSeek-V3.2,距离现在其实也才不到 4 个月,但已经有点恍如隔世。
一方面是 AI 进步太快,各家发布节奏越来越密集。大模型发布已经从年度事件,变成了季度更新,甚至接近月更。另一方面是开源这件事本身也在发生变化。
这段时间,A 社走出的路线让很多人开始重新思考:开源本身是不是没有意义?是不是最终大家都会走向闭源,把能力封装成 API,把模型变成服务,只要你的模型能力足够强大, 你就能在市场上拥有最高的话语权
包括一些模型厂商,也确实开始从开源重新走向闭源。毕竟只是叫好不叫座嘛

但 DeepSeek 这次还是选择的开源,而且是 MIT License
它不只是“开放一个能力入口”,而是继续维持了开源模型的基本叙事:你可以下载模型,可以本地部署,可以做研究,可以做二次封装,可以基于它继续构建自己的工程系统。
这件事可能对生态的意义很大
另外,从 OpenRouter 这类真实调用平台看,DeepSeek-V3.2 从 12 月发布后,几乎一直没有跌出过前 10。更关键的是,它不像有些模型会通过限时免费、大规模营销或平台运营策略去刷榜。这个意义上,它的排名很大程度上是用户真实的在用脚投票(真掏钱了…)

最后
DeepSeek V4 不是一个完美模型。
它还不是多模态。它在 Coding Agent 的连续稳定性上,和当前最顶级闭源模型仍然有差距
但我依然觉得它符合预期,甚至在很多地方超出预期
因为这次发布真正重要的不是某一个 benchmark 分数,而是它把几个事情同时做到了:万亿参数级开源模型、1M 上下文、可用的 thinking 模式、Agent 工具调用路线、相对低成本的 API,以及继续坚持开源
这个组合在今天仍然是稀缺的。
AI 这一轮发展里,闭源模型当然会继续往前跑,而且大概率在最前沿能力上继续保持优势。但开源模型的意义并不只在于“当下是不是第一”。它更像一个技术池塘,决定了更多人能不能参与、能不能复现、能不能改造、能不能把能力带进自己的真实业务里。
这次 V4 发布以后,这个池塘好像又重新泛起了一些涟漪