DeepSeek V4 本周发布,英伟达首次被“跳过”:中国 AI 换了一条路

简介: 过去一年,全球AI竞相发布大模型,DeepSeek却保持“静默”。本周将发布的V4并非简单升级:它原生支持文本、图像与视频多模态,并优先适配国产AI芯片,标志从“蛮力堆算力”转向“结构创新”。继低成本高性能量产模型R1后,V4延续其工程效率路线,探索资源受限下的可持续AI路径。

过去一年,全球 AI 行业几乎没有真正的“静默期”。

OpenAI 连续发布多代 GPT,Anthropic 的 Claude 快速跻身第一梯队,Google Gemini 高速迭代。硅谷用百亿、千亿美金级别的投入,把大模型竞赛推向白热化。

而就在这样的背景下,一家中国公司显得异常“安静”。

据 金融时报 报道,DeepSeek V4 预计将于本周正式发布。距离 DeepSeek 上一次发布具有里程碑意义的模型 R1,已经过去了一年多。

这一年里,DeepSeek 没有发布会、没有路演,也很少出现在聚光灯下。但从目前披露的信息来看,V4 并不只是一次常规升级,而更像一次方向性的转向。

不只是升级:V4 是一次多模态与架构选择的合流
从目前流出的信息判断,DeepSeek V4 将是一款原生多模态大模型,支持文本、图片与视频的统一理解与生成。

这意味着,DeepSeek 终于补齐了此前长期被认为是短板的图像与视频能力。在过去,DeepSeek 更像是一位“文字型选手”:推理、代码和数学能力极强,但多模态并非主战场。V4 的出现,显然意在完成这块拼图。

更值得注意的是另一点——芯片适配策略的变化。

多家外媒提到,DeepSeek V4 并未选择在发布前与 英伟达 做深度优化适配,而是优先针对国产 AI 芯片进行调优。这一选择打破了行业惯例。

在过去,几乎所有顶级大模型都会围绕英伟达 GPU 进行性能优化。但 V4 释放出的信号是:即便不以最顶级的 GPU 作为前提,也能跑出一流模型。

客观来说,在预训练阶段,高端 GPU 依然占据主导地位;但如果 V4 在推理阶段实现了对国产芯片的成熟适配,其商业化意义将远超一次模型能力提升。

回看 R1:为什么 DeepSeek 会被反复提起?
要理解 V4 的分量,绕不开去年的 R1。

2025 年 1 月,DeepSeek 几乎“无声”地上线了 R1 推理模型,只附带了一份技术报告。随后发生的事情,至今仍被频繁回顾。

R1 在多项推理基准上达到了与 OpenAI 顶级模型相当甚至更优的水平,而 DeepSeek 公布的训练成本,仅为数百万美元量级。同时,R1 选择了开源。

一周后,DeepSeek App 一度登顶苹果 App Store 免费榜。同一天,美股 AI 板块出现剧烈波动,英伟达单日市值蒸发创下纪录。

那一刻,市场第一次被迫直面一个问题:


如果一家中国公司,能用显著更低的成本,做出同等级别的模型,那巨额基础设施投入的逻辑,还是否成立?

静默的一年,其实是系统性铺垫
R1 之后,DeepSeek 并未急于发布“下一代旗舰”,但这一年并非空转。

从 V3 的持续演进、R1 的多次强化,到稀疏注意力、自验证、条件记忆等研究论文的公开,DeepSeek 在做的,是将推理能力、多模态、长上下文与系统架构逐步融合。

从目前披露的研究成果来看,V4 很可能基于:

更高效的信息流动结构
面向百万级上下文的条件记忆机制
推理与工具调用的深度整合
这些能力并不直接体现在“榜单名次”上,却直接决定模型能否进入真实生产环境。

发布前的争议与舆论噪声
在 V4 即将发布的节点上,海外舆论场也出现了一些紧张信号。

Anthropic 曾公开指控多家中国团队存在“蒸馏”行为,引发争议。与此同时,社区用户也发现 Claude 在多语言环境下出现模型身份混淆的现象——有用户用中文提问,Claude 竟自称“我是 DeepSeek”,引发大量讨论与调侃。

更具戏剧性的是,就在 Anthropic 高调指控的同一天,美国联邦政府宣布所有机构立即停用 Anthropic 技术,五角大楼将其列为“供应链风险”。马斯克在 X 平台直言:“他们怎么敢偷 Anthropic 从人类程序员那里偷来的东西?”

这些事件本身,或许并不足以构成技术判断,但它们反映了一个现实:当竞争进入深水区,技术之外的叙事博弈正在升温。

从“蛮力”到“结构”:一条逐渐清晰的路径
回看 DeepSeek 的发展轨迹,其实非常清晰:

不依赖发布会制造声量
更关注工程效率与系统结构
把资源优先投向“如何跑得更好”,而不是“跑得更大”
在外部环境受限的情况下,这条路径并非权宜之计,而是一种长期选择。

当顶级芯片不再是唯一变量,架构设计、训练策略、推理效率和系统工程能力,开始成为决定性因素。

写在最后
DeepSeek V4 的发布,很可能不会是一个平静的事件。

但比“登不登顶榜单”更重要的问题是:它是否再次证明了一件事——世界级模型,不只有一条通往未来的路。

如果说过去几年,中国 AI 更多是在追赶能力上限,那么从 R1 到 V4,DeepSeek 展示的,是另一种可能性:

在资源受限的前提下,通过结构创新和工程效率,走出一条可持续、可落地的技术路径。

真正值得关注的,或许正是这一点。

相关文章
|
存储 人工智能 缓存
DeepSeek V4全网猜测汇总:四大焦点浮出水面
DeepSeek V4因代码曝光引发热议,全网聚焦发布时间、核心技术、能力成本及生态格局四大焦点,线索源自公开爆料与实测。官方暂未回应,待其首发后可通过LLaMA-Factory Online解锁定制玩法。
1077 0
|
1月前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
25266 65
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
|
5月前
|
人工智能 Rust 运维
这个神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
加我进AI讨论学习群,公众号右下角“联系方式”文末有老金的 开源知识库地址·全免费
9794 21
|
4月前
|
人工智能 运维 前端开发
Claude Code 30k+ star官方插件,小白也能写专业级代码
Superpowers是Claude Code官方插件,由核心开发者Jesse打造,上线3个月获3万star。它集成brainstorming、TDD、系统化调试等专业开发流程,让AI写代码更规范高效。开源免费,安装简单,实测显著提升开发质量与效率,值得开发者尝试。
11177 5
|
1月前
|
人工智能 API Go
Qoder 工程实践:Harness Engineering 指南
Harness 是一套面向 AI Agent 的工程化框架,通过将架构约束、规范文档和自动化验证(如依赖层级检查、质量规则)编码进代码仓库,为 Agent 构建“操作系统”。它以 AGENTS.md 为入口,用预验证替代盲目编码,以子代理分工、模型分级调度和交叉 Review 保障质量,并支持自我进化——从失败中学习、沉淀记忆、编译确定性脚本。让 Agent 不靠“记住”,而靠“看见”与“验证”可靠工作。
Qoder 工程实践:Harness Engineering 指南
|
3月前
|
人工智能 运维 文字识别
DeepSeek V4春节炸场,三大黑科技让Claude和GPT都坐不住了
今儿看到个信息,DeepSeek可能发布V4了。 老金我第一时间测试佐证了一下。 虽说官方没明确公布上线,但是咱可以先来了解下它的 3大创新能力。 DeepSeek作为国产之光(毕竟 价格屠夫),老金我是尤为关注的。 这个模型它不是小更新,是直接对标Claude Opus 4.5和GPT-5的那种 大级别的。 上次DeepSeek R1发布的时候,硅谷那边就已经慌了一波。 这次V4,定位更狠—

热门文章

最新文章