DeepSeek-V4开源:百万上下文,Agent能力比肩顶级闭源模型

简介: DeepSeek-V4正式开源!含V4-Pro(1.6T参数)与V4-Flash(284B参数)双版本,均支持百万token上下文。首创混合注意力架构,Agent能力、世界知识与推理性能全面领先开源模型,数学/代码评测比肩顶级闭源模型。

DeepSeek全新系列模型V4预览版正式上线并同步开源。V4-Pro拥有1.6T总参数(49B激活),V4-Flash拥有284B参数(13B激活),均支持百万token上下文。在Agent能力、世界知识和推理性能上均实现开源领先。

开源地址:

01 核心特性

百万上下文标配 全新混合注意力架构,结合压缩稀疏注意力(CSA)和重度压缩注意力(HCA)。V4-Pro在1M上下文下,单token推理FLOPs仅为V3.2的27%,KV缓存仅为V3.2的10%。

Agent能力大幅提升 Agentic Coding达到开源最佳水平,已成为公司内部员工使用的Agentic Coding模型。使用体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式。针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent产品专项适配优化。

世界顶级推理性能 在数学、STEM、竞赛型代码评测中,超越所有已公开评测的开源模型,比肩世界顶级闭源模型。LiveCodeBench 93.5,Codeforces Rating 3206。

丰富的世界知识 世界知识评测中大幅领先其他开源模型,SimpleQA-Verified 57.9,仅稍逊于Gemini-Pro-3.1。

双版本覆盖不同需求 Pro版追求极致性能,Flash版参数和激活更小,推理能力接近Pro,提供更快捷、经济的API服务。

02 模型版本

模型

总参数

激活参数

上下文

精度

许可证

V4-Pro

1.6T

49B

1M

FP4+FP8混合

MIT

V4-Flash

284B

13B

1M

FP4+FP8混合

MIT

V4-Pro-Base

1.6T

49B

1M

FP8

MIT

V4-Flash-Base

284B

13B

1M

FP8

MIT

注:MoE专家参数使用FP4精度,其余参数使用FP8。Base版本保留完整训练信号,适合微调和研究。

两个版本均支持三种推理模式:

  • Non-think:快速直觉响应,适合日常任务
  • Think High:逻辑分析推理,适合复杂问题
  • Think Max:推理能力全开,探索模型推理边界,建议上下文窗口至少384K tokens

03 结构创新与训练

DeepSeek-V4-Pro:性能比肩顶级闭源模型

  • Agent能力大幅提升:在Agentic Coding评测中达到开源最佳水平,已成为公司内部员工使用的Agentic Coding模型。使用体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式,但仍与Opus 4.6思考模式存在一定差距。
  • 丰富的世界知识:世界知识测评大幅领先其他开源模型,仅稍逊于Gemini-Pro-3.1。
  • 世界顶级推理性能:在数学、STEM、竞赛型代码评测中,超越所有已公开评测的开源模型,比肩世界顶级闭源模型。

DeepSeek-V4-Flash:更快捷高效的经济之选

  • 世界知识稍逊于Pro,但推理能力接近。参数和激活更小,提供更快捷、经济的API服务。
  • Agent评测中简单任务与Pro旗鼓相当,高难度任务仍有差距。

结构创新与超高上下文效率

DeepSeek-V4开创了全新的混合注意力机制,结合压缩稀疏注意力(CSA)和重度压缩注意力(HCA),在token维度进行压缩。V4-Pro在1M上下文下,单token推理FLOPs仅为V3.2的27%,KV缓存仅为V3.2的10%。从现在开始,1M上下文将是DeepSeek所有官方服务的标配。

DeepSeek-V4 和 DeepSeek-V3.2 的计算量和显存容量随上下文长度的变化

此外引入流形约束超连接(mHC)强化残差连接,采用Muon优化器提升收敛速度和训练稳定性。预训练数据超过32T tokens,后训练采用两阶段范式:先通过SFT和GRPO独立培养领域专家,再通过在线蒸馏统一整合到单一模型。

Agent能力专项优化

针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent产品进行适配和优化,在代码任务和文档生成任务上均有提升。

04 模型调用指南

API调用

V4-Pro和V4-Flash已同步上线DeepSeek API,访问时base_url不变,将model参数改为deepseek-v4-prodeepseek-v4-flash即可。

非流式调用样例代码:

from openai import OpenAI
client = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.deepseek.com")

# Turn 1
messages = [{"role": "user", "content": "9.11 and 9.8, which is greater?"}]
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=messages,
reasoning_effort="high"
extra_body={"thinking": {"type": "enabled"}},
)

reasoning_content = response.choices[0].message.reasoning_content
content = response.choices[0].message.content

# Turn 2
# The reasoning_content will be ignored by the API
messages.append(response.choices[0].message)
messages.append({'role': 'user', 'content': "How many Rs are there in the word 'strawberry'?"})
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=messages,
reasoning_effort="high"
extra_body={"thinking": {"type": "enabled"}},
)a
# ...

详细信息请查看API文档:https://api-docs.deepseek.com/zh-cn/guides/thinking\_mode

聊天模板

本次发布未包含Jinja格式的chat template,官方提供了专用的encoding文件夹,包含Python脚本和测试用例,演示如何将OpenAI兼容格式的消息编码为模型输入字符串,以及如何解析模型的文本输出:

from encoding_dsv4 import encode_messages

messages = [
{"role": "user", "content": "hello"},
{"role": "assistant", "content": "Hello! I am DeepSeek.", "reasoning_content": "thinking..."},
{"role": "user", "content": "1+1=?"}
]

prompt = encode_messages(messages, thinking_mode="thinking")

完整文档请参阅模型仓库中的encoding文件夹。

本地推理

首先将HuggingFace模型权重转换为项目所需格式:

export EXPERTS=384
export MP=8
export CONFIG=config.json
python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP}

单机交互式对话:

torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive

从文件批量推理:

torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --input-file ${FILE}

多机推理:

torchrun --nnodes ${NODES} --nproc-per-node $((MP / NODES)) --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --input-file ${FILE}

如需使用FP8精度,删除config.json中的"expert_dtype": "fp4"并在转换时指定--expert-dtype fp8

推荐采样参数:temperature=1.0top_p=1.0。Think Max推理模式建议上下文窗口至少设置为384K tokens。详细说明请参阅模型仓库中的inference文件夹。

模型链接:https://www.modelscope.cn/collections/deepseek-ai/DeepSeek-V4

目录
相关文章
|
4天前
|
缓存 人工智能 自然语言处理
我对比了8个Claude API中转站,踩了不少坑,总结给你
本文是个人开发者耗时1周实测的8大Claude中转平台横向评测,聚焦Claude Code真实体验:以加权均价(¥/M token)、内部汇率、缓存支持、模型真实性及稳定性为核心指标。
|
22天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
34915 57
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
16天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
15057 44
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
|
11天前
|
人工智能 JavaScript Ubuntu
低成本搭建AIP自动化写作系统:Hermes保姆级使用教程,长文和逐步实操贴图
我带着怀疑的态度,深度使用了几天,聚焦微信公众号AIP自动化写作场景,写出来的几篇文章,几乎没有什么修改,至少合乎我本人的意愿,而且排版风格,也越来越完善,同样是起码过得了我自己这一关。 这个其实OpenClaw早可以实现了,但是目前我觉得最大的区别是,Hermes会自主总结提炼,并更新你的写作技能。 相信就冲这一点,就值得一试。 这篇帖子主要就Hermes部署使用,作一个非常详细的介绍,几乎一步一贴图。 关于Hermes,无论你赞成哪种声音,我希望都是你自己动手行动过,发自内心的选择!
2937 28
|
23小时前
|
云安全 人工智能 安全
|
1月前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
45866 160
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
7天前
|
弹性计算 人工智能 自然语言处理
阿里云Qwen3.6全新开源,三步完成专有版部署!
Qwen3.6是阿里云全新MoE架构大模型系列,稀疏激活显著降低推理成本,兼顾顶尖性能与高性价比;支持多规格、FP8量化、原生Agent及100+语言,开箱即用。

热门文章

最新文章

下一篇
开通oss服务