这两天我被一堆 DeepSeek V4 的消息刷屏了。
1T 参数,1M 上下文,原生多模态,API 价格可能继续往下打,甚至还有人说,量化之后两块 RTX 4090 或一块 RTX 5090 就能本地跑。
你敢信???
我第一反应不是兴奋,是先去看官方到底发没发。
因为这种规格,只要有一半是真的,行业里很多人都得重新算账。模型公司要重新算训练和推理成本,创业公司要重新算产品毛利,开发者要重新算自己到底该押哪一条技术栈,连那些一直靠高价模型撑护城河的巨头,可能都得有点头皮发麻。
但先把最关键的一句放前面。
截至 2026 年 4 月 12 日,我查了一轮 DeepSeek 官方公开页面,公开能看到的最新主力型号,还是 DeepSeek V3.2 这一代,API 文档里也没有直接挂出 V4 的模型入口。
所以今天这篇,不是官宣解读。
更像是一篇传闻盘点,再加上我自己的一点判断。
说实话我也不确定,这波爆料到头来能坐实几成。
可就算它还是传闻,我还是觉得这事值得聊。
因为 DeepSeek 这家公司最可怕的地方,从来都不只是把参数做大。
而是它总能把一件原本很贵,很重,很像少数人玩具的东西,硬生生往便宜、可用、可部署那边拽。
这一路你回头看,其实很明显。
DeepSeek V2 那会儿,很多人第一次认真意识到,原来国内团队也能把大模型的性价比打成这样。后面 V3,再到推理模型,再到一轮轮价格下探,它一直在干一件事,把顶级能力从实验室奖杯,往基础设施那边推。
如果 V4 的传闻要是大体成真,那它真正吓人的地方,也不在 1T 这个数字本身。
而在另一个词,效率。
很多朋友一看到 1T 参数,脑子里会自动冒出一个印象,这玩意是不是巨笨重,巨烧钱,巨难用。
正常来说,确实应该这样。
可这次流传最广的一条信息很有意思,虽然总参数到了 1T,但每个 token 真正激活的参数,大概只有 320 到 370 亿。
这就不是我们过去理解的那种傻大黑粗了。
更像什么呢。
更像你背后站着一个超大的专家团,但每次真正上场回答问题的,只是里面最合适的那几个人。库很大,脑子很厚,但出手依然很快。
这一下,味道就完全变了。
因为行业里最值钱的,从来都不是参数表好不好看。
而是你能不能把巨大的能力,压缩成用户真能付得起的钱,真能接受的延迟,真能塞进产品里的体验。
顺着上面的再聊聊,1M 上下文这事,我觉得也是同样的逻辑。
很多人对上下文长度没什么感觉,觉得不就是聊天框里能多塞点字嘛。
真不是。
如果只是从 32K 变成 64K,很多时候你会觉得,哦,舒服了一点。
可如果真从现在官方 API 页面公开写着的 128K,直接跨到 1M,那就不是舒服一点了,那是工作方式会变。
你可以一次把一整套项目文档、会议记录、产品需求、测试报告,甚至一个中型代码库,扔给模型一起看。
它不再只是陪你对几轮话。
它开始有点像一个真的能把前因后果都串起来的搭档。
这对做开发的人很刺激。
这对做研究的人很刺激。
这对所有天天在一堆长文档里切来切去的人,都很刺激。
当然,我也得泼点冷水。
长上下文这事,这两年被吹得太多了。很多模型都能把窗口写得很大,但一旦真把长材料扔进去,前面记不住,后面抓不到,关键细节掉一地,搞得我现在看到超长上下文几个字,第一反应已经不是哇,而是先等等,真测了再说。
所以如果 DeepSeek V4 真能把长上下文的检索准确率狠狠干上去,那它的价值就不是参数更大,而是它终于把长文本这个老毛病狠狠干掉了。
这才是用户真能感知到的升级。
而且这次传闻里最让我留意的,其实不是大词,而是底层那几条技术路线。
比如把事实记忆和动态推理拆开的条件记忆,比如让超大模型训练更稳的连接设计,比如更激进的稀疏注意力,还有那个听起来就很像工程师命名风格的闪电索引器。
这些名字你单看,容易觉得玄。
可把它们放在一起看,味道其实很统一。
不是在单纯拼参数。
是在给超大模型做减法。
把最贵的环节削掉,把最慢的环节提起来,把最容易掉链子的地方狠狠干掉。
这条线我为什么觉得不算瞎吹。
因为 DeepSeek 在更早一代公开材料里,已经把 DSA 这种稀疏注意力路线拿出来讲过了。也就是说,社区这次围着长上下文和效率打转,不是凭空脑补,它至少是顺着 DeepSeek 之前公开露过的工程方向继续往前猜。
回到能力这块,原生多模态如果也是真的,我觉得意义一点不比参数小。
这说明 DeepSeek 想做的,就不是一个更会聊天的文本模型。
而是一个能同时理解文本、代码、图像,后面也许还会继续接入更多信号的统一底座。
这对 Agent 特别关键。
因为真实世界不是纯文本。
需求文档里有图,报错截图里有字,产品评审里有页面,代码仓库旁边还躺着一堆表格、流程图和历史记录。你如果真想让模型进入工作流,它迟早得面对这些乱七八糟的现实材料。
所以我现在越来越觉得,真正有资格争下一代入口的模型,不只是会答题。
而是能不能在混乱的真实材料里,还保持稳定输出。
说到这块,代码能力就更不用说了。
社区里传的 SWE-bench Verified 过 80,这个数字一旦坐实,不是小修小补。
是直接跨线。
你如果最近一年真拿模型干过活,就知道会写代码,和能处理软件工程级任务,完全不是一回事。前者像会写几段函数,后者是它得理解仓库结构,得看懂上下文,得知道改完哪里会炸,甚至得能在一个不那么干净的真实项目里慢慢往前推。
这个门槛非常高。
所以我现在看各种模型竞争,越来越觉得榜单只是表面。真正的分水岭,是谁能在真实工作流里少给你添乱,多替你收尾。
说到这块,其实我反而不太担心 DeepSeek 能不能继续把能力做强。
我更在意的是,它会不会继续把价格打穿。
因为这家公司过去最离谱的,不是单点能力突然爆一次。
而是每次一有突破,就顺手把行业的价格体系一起搅乱。
这才是最疼的。
如果 V4 真的还是那条路子,能力更强,价格更狠,还继续放出权重,那它炸的就不只是排行榜。
它炸的是整个旧秩序。
很多高价闭源模型,过去的逻辑其实很简单,我比你强一点,所以我贵很多。
可当一个模型开始用更低的价格,给出足够接近,甚至某些任务里更猛的结果时,用户会非常现实地投票。
尤其是开发者。
尤其是创业团队。
尤其是那些每天都在拿 token 成本做乘法的人。
这也是为什么我觉得,V4 真正值得盯的,不只是它能不能打 GPT 或者 Claude。
而是它会不会继续把顶级智能,从少数公司的高毛利商品,往所有人都能接的水电煤那边推。
这件事,比榜单更大。
社区传闻里还有一条很容易被标题党拿去狂欢,就是量化之后本地部署,甚至能在两块 RTX 4090 或一块 RTX 5090 上跑。
说真的,这条我先按住不表。
不是说完全不可能。
而是这种说法,往往特别吃前提。
你用的是什么量化方案,激活稀疏做到什么程度,能跑到什么速度,能不能稳定,是真能生产,还是只是能点亮,这里面差别太大了。
很多朋友一看到本地可跑,就会脑补成人人都能在家里起一个万亿模型。
现实没这么浪漫。
但这条传闻为什么依然重要呢。
因为它至少说明了一件事,大家现在对顶级模型的期待,已经不只是云上最强。
而是能不能离我更近一点。
离我的设备更近一点。
离我的数据更近一点。
离我的工作流更近一点。
顺着这个再往下走,昇腾这类国产算力适配的消息,我觉得也别只当成硬件新闻看。
谁能在不同算力底座上把模型跑顺,谁才真的有资格谈普惠。
这不是一个单纯的芯片故事。
这是整个 AI 生态能不能自己长出腿的事。
你想想看,这个变化是不是很有意思。
技术还在往前冲。
但大家盯着的,已经不只是智力天花板了。
而是落地地板价。
这种感觉特别像互联网早年的几个关键节点。
不是没有人先把东西做出来。
而是总有人突然把成本打下来,把门槛拆掉,把原来只有少数人能玩的东西,硬生生推进大众市场。那一刻开始,整个行业的叙事就变了。
AI 现在也有点那个味道了。
所以回到 DeepSeek V4 这件事,我自己的结论其实很简单。
别急着喊炸场。
至少截至 2026 年 4 月 12 日,官方公开页面里,我还没看到 V4 正式挂出来。
但也别把这些传闻只当成又一轮热搜素材。
因为传闻背后指向的路线,是真实存在的。
更大的模型,不一定更慢。
更强的能力,不一定更贵。
更顶的智能,也不一定只能锁在少数大厂的黑箱里。
如果 DeepSeek 真把这几件事同时做成了,那它要炸掉的,就不是某一次发布会的热度。
而是很多人对 AI 商业模式的旧理解。
这才是我真正觉得有意思的地方。
不是又来了一个新名字。
而是那条把智能做得又强又便宜的路线,可能还在继续加速。
大时代啊,朋友们。
注:
截至 2026 年 4 月 12 日,我核对了 DeepSeek 官方更新日志、模型与价格页,以及 DeepSeek V3.2 发布页,公开页面里暂未看到 DeepSeek V4 的正式发布信息。所以上文关于 V4 的参数、上下文、价格和本地部署能力,都按社区流传信息讨论,不视为官方确认。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~
谢谢你看我的文章,我们,下次再见。