DeepSeek V4:百万上下文,万亿参数,以及重新泛起涟漪的开源池塘

简介: DeepSeek V4发布Pro(1.6T参数/49B激活)与Flash(284B/13B)双模型,均支持1M上下文、thinking模式及Agent能力。全栈开源(权重+技术报告+API+定价),采用混合注意力架构显著降本,中文长文本与推理能力突出,是当前少有的万亿级开源系统级发布

DeepSeek V4 这次发布了两款模型:DeepSeek-V4-Pro 和 DeepSeek-V4-Flash

整体看下来,我的第一反应是:很有魄力呢

基本符合预期,甚至在某些地方略超预期。Pro 是 1.6T 总参数、49B 激活参数;Flash 是 284B 总参数、13B 激活参数。两个模型都支持 1M 上下文,也都提供 thinking / non-thinking 两种使用方式。更关键的是,这次不是只发 API,也不是只发论文,而是模型权重、技术报告、API 文档、价格、Coding Agent 接入方式一起放出来。

某种意义上,这是目前开源模型里很少见的一次“系统级发布” 也是带有大众预期的一次

1777097463119-c5071894.png

先说模型本身

这次 DeepSeek V4 的主线其实很明确:百万上下文、Agentic Coding、更低推理成本。

DeepSeek-V4-Pro 是真正意义上的万亿参数级模型,官方口径是 1.6T 总参数,单 token 激活 49B。DeepSeek-V4-Flash 则是面向成本和速度的版本,284B 总参数,单 token 激活 13B。两个模型都支持 1M context,最大输出也给到了非常夸张的 384K。

1777097637904-035c7ef8.png

从架构上看,V4 不是简单把 V3.2 做大,而是围绕长上下文做了比较完整的一轮重构。它用了 Hybrid Attention Architecture,把 CSA(Compressed Sparse Attention)和 HCA(Heavily Compressed Attention)组合起来,核心目标就是降低百万上下文下的计算成本和 KV Cache 压力。

官方给了一个很有意思的说法:在 1M context 下,V4-Pro 单 token 推理 FLOPs 大约只有 V3.2 的 27%,KV Cache 大约只有 V3.2 的 10%。这个数字如果能在真实生产里稳定复现,其实意义很大。因为长上下文真正贵的地方,不只是模型参数,而是随着上下文拉长以后,推理成本和显存成本会非常快地膨胀。

当然,开源是一回事,能不能部署是另一回事。

我大概按“私有化部署 + 1M 上下文 + 可用并发 + 稳定生产冗余”估了一下,如果想比较完整地吃到 V4-Pro 的 1M 上下文能力,基本不是几张卡能解决的事情。哪怕使用 H20 这类卡,最终也很可能是 64 张级别起步,甚至还要看推理框架、量化方式、并发目标和是否保留足够的 KV Cache 空间。

这不是官方数字,只是一个工程侧的粗略估算。但结论很直接:这个规模的模型,开源归开源,真正能私有化跑满的玩家不会太多。可能也就少数大厂、云厂商、少数有强算力预算的企业客户能玩得起来。

可怕的数字…

训练方式:不是单点升级,而是整套路线升级

DeepSeek V4 的训练路线也比较值得看。

预训练方面,官方披露的是超过 32T tokens 的语料,包含数学、代码、网页、长文档以及其他高质量数据。Pro 训练到 33T tokens,Flash 训练到 32T tokens。序列长度是逐步拉长的,从 4K 到 16K,再到 64K,最后到 1M。这个路径很合理,直接从短上下文跳到百万上下文并不现实,训练稳定性和数据组织都会出问题。

优化器上,它使用了 Muon + AdamW 的混合方案。大多数参数走 Muon,embedding、prediction head、RMSNorm 这类部分继续使用 AdamW。这个选择也说明 DeepSeek 并不是只在模型结构上做变化,而是在训练稳定性和收敛效率上也做了不少工程化尝试。

后训练部分更有 DeepSeek 自己的味道。

它先训练数学、代码、Agent、指令遵循等不同领域专家模型,每个专家大致走 SFT + GRPO 的路径。然后再通过 OPD(On-Policy Distillation)把多个专家能力统一到一个模型里。

这和传统“一个模型一路训到底”的感觉不一样,更像是先把多个能力方向分别拉高,再把它们合并成一个统一模型。这里的核心问题不是“有没有蒸馏”,而是它到底能不能在统一模型里保住多个专家能力,同时不产生明显的能力互相干扰。

从目前官方 benchmark 看,至少结果是比较好看的。

我自己测了几个问题

各种常规测评榜已经很多了,这篇就不再重复堆 MMLU、GPQA、SWE-bench 这类分数。它们有参考价值,但我更关心一些自己长期用来测试模型的小问题。

第一个是我个人很喜欢拿来喂给各种大模型的穷举题。第一次在大模型上看到比较稳定通过,还是 GPT-o3。

是否存在一个6个节点的树,可以将其每条边赋予一个正整数权重作为长度,使得任意两点间的距离(即路径上所有边的长度之和)互不重复且恰好组成集合{1, 2, 3....15}?

DeepSeek-V4-Pro 这次表现明显比之前强。整个思考速度、解题能力都有提升,而且保留了我一直比较喜欢的 DeepSeek 这条线的能力:思考过程中可以稳定调用 tools。大概一分钟左右跑出了答案,符合预期

1777097780007-4cac58a1.png

第二个最常见的洗车题,额 , 0 压力, 秒出结果, 无讨论价值

1777097923473-aba8805a.png

第三个是稍微有点黑暗版本的脑筋题。

如何只用一刀把四个一模一样的橘子平均分给四个小朋友

它甚至考虑到了“刀小朋友”这种极端场景。这个答案当然不太符合道德伦理哈,但从模型推理角度看,它说明穷举场景确实比较到位。它没有只沿着常规谜语答案走,而是把题面里潜在的异常解释也扫了一遍

我还蛮喜欢这个逻辑的。

1777098047920-37b3b85a.png

第四个是编程能力。我把它接入 Claude Code 试了一下,顺手让它写了一个图床功能。

整体效果还行,但我个人感受是,仍然明显不如 GPT-5.4 和 Claude Opus 4.6。在两轮对话后,它生成的产物开始出现问题,虽然下一轮很快修复了,但这种情况在我使用 GPT-5.4 和 Opus 4.6 时几乎没有遇到过。

所以结论也比较克制:V4-Pro 的 Coding Agent 能力很强,已经进入一线可用区间,但如果拿它和当前最顶级闭源模型比,稳定性和连续多轮复杂任务保持能力还是有差距

1777098257082-407daee2.png

1M 上下文的真正价值

我觉得这次最重要的点不是榜单,而是 1M context。

目前公开可用、权重开放、参数规模达到万亿级、还支持 1M 上下文的模型,本身就非常少。更不用说 DeepSeek 这次还把价格压得很低。

这个价钱还要啥自行车。

1M 上下文意味着什么?最直观的说法是,它一次性可以读完一本《红楼梦》。但这只是一个象征。真正有生产价值的地方在于长文档理解和长文本生成。

比如合同审核、标书生成、投标文件比对、尽调材料分析、长篇研究报告输出、复杂项目文档归纳,这些场景以前都需要 RAG、切片、召回、重排、摘要压缩配合起来做。不是不能做,而是链路很长,每一层都会带来误差。

1M 上下文不会让 RAG 消失,但它会改变很多应用的工程结构。

过去我们要非常精细地设计 chunk、召回策略、上下文拼接策略。现在对于一部分中低频、高价值、长文本场景,可能可以更直接地把大段材料塞进去,让模型在一个更完整的上下文里推理。这对 ToB 场景很有吸引力。

尤其是 DeepSeek 的文本能力一直是它的强项。

这点很难完全通过 benchmark 表达清楚。深度使用过就会发现,它的中文输出非常像人,尤其适合报告、邮件、方案、总结、润色、文书类任务。我个人写很多报告和邮件时,也一直挺喜欢用 DeepSeek-V3.2。它不是那种过度模板化的模型,文字有一点自然的松弛感。

如果 V4 在 V3.2 文本能力基础上继续增强,同时给到 1M 上下文,那它在长文本生产场景里确实会很有竞争力。

DeepSeek 的位置

上一次版本还是 DeepSeek-V3.2,距离现在其实也才不到 4 个月,但已经有点恍如隔世。

一方面是 AI 进步太快,各家发布节奏越来越密集。大模型发布已经从年度事件,变成了季度更新,甚至接近月更。另一方面是开源这件事本身也在发生变化。

这段时间,A 社走出的路线让很多人开始重新思考:开源本身是不是没有意义?是不是最终大家都会走向闭源,把能力封装成 API,把模型变成服务,只要你的模型能力足够强大, 你就能在市场上拥有最高的话语权

包括一些模型厂商,也确实开始从开源重新走向闭源。毕竟只是叫好不叫座嘛

1777099334788-1b7adbf6.png

但 DeepSeek 这次还是选择的开源,而且是 MIT License

它不只是“开放一个能力入口”,而是继续维持了开源模型的基本叙事:你可以下载模型,可以本地部署,可以做研究,可以做二次封装,可以基于它继续构建自己的工程系统。

这件事可能对生态的意义很大

另外,从 OpenRouter 这类真实调用平台看,DeepSeek-V3.2 从 12 月发布后,几乎一直没有跌出过前 10。更关键的是,它不像有些模型会通过限时免费、大规模营销或平台运营策略去刷榜。这个意义上,它的排名很大程度上是用户真实的在用脚投票(真掏钱了…)

1777098869869-c3deb9ac.png

最后

DeepSeek V4 不是一个完美模型。

它还不是多模态。它在 Coding Agent 的连续稳定性上,和当前最顶级闭源模型仍然有差距

但我依然觉得它符合预期,甚至在很多地方超出预期

因为这次发布真正重要的不是某一个 benchmark 分数,而是它把几个事情同时做到了:万亿参数级开源模型、1M 上下文、可用的 thinking 模式、Agent 工具调用路线、相对低成本的 API,以及继续坚持开源

这个组合在今天仍然是稀缺的。

AI 这一轮发展里,闭源模型当然会继续往前跑,而且大概率在最前沿能力上继续保持优势。但开源模型的意义并不只在于“当下是不是第一”。它更像一个技术池塘,决定了更多人能不能参与、能不能复现、能不能改造、能不能把能力带进自己的真实业务里。

这次 V4 发布以后,这个池塘好像又重新泛起了一些涟漪

目录
相关文章
|
5天前
|
缓存 人工智能 自然语言处理
我对比了8个Claude API中转站,踩了不少坑,总结给你
本文是个人开发者耗时1周实测的8大Claude中转平台横向评测,聚焦Claude Code真实体验:以加权均价(¥/M token)、内部汇率、缓存支持、模型真实性及稳定性为核心指标。
2379 16
|
23天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
34940 57
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
17天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
15773 46
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
|
13天前
|
人工智能 JavaScript Ubuntu
低成本搭建AIP自动化写作系统:Hermes保姆级使用教程,长文和逐步实操贴图
我带着怀疑的态度,深度使用了几天,聚焦微信公众号AIP自动化写作场景,写出来的几篇文章,几乎没有什么修改,至少合乎我本人的意愿,而且排版风格,也越来越完善,同样是起码过得了我自己这一关。 这个其实OpenClaw早可以实现了,但是目前我觉得最大的区别是,Hermes会自主总结提炼,并更新你的写作技能。 相信就冲这一点,就值得一试。 这篇帖子主要就Hermes部署使用,作一个非常详细的介绍,几乎一步一贴图。 关于Hermes,无论你赞成哪种声音,我希望都是你自己动手行动过,发自内心的选择!
3035 29
|
2天前
|
云安全 人工智能 安全
|
2天前
|
人工智能 测试技术 API
阿里Qwen3.6-27B正式开源:网友直呼“太牛了”!
阿里云千问3.6系列重磅开源Qwen3.6-27B稠密大模型!官网:https://t.aliyun.com/U/JbblVp 仅270亿参数,编程能力媲美千亿模型,在SWE-bench等权威基准中表现卓越。支持多模态理解、本地部署及OpenClaw等智能体集成,已开放Hugging Face与ModelScope下载。
|
1天前
|
机器学习/深度学习 缓存 测试技术
DeepSeek-V4开源:百万上下文,Agent能力比肩顶级闭源模型
DeepSeek-V4正式开源!含V4-Pro(1.6T参数)与V4-Flash(284B参数)双版本,均支持百万token上下文。首创混合注意力架构,Agent能力、世界知识与推理性能全面领先开源模型,数学/代码评测比肩顶级闭源模型。
1244 6

热门文章

最新文章