DeepSeek-V4开源:百万上下文,Agent能力比肩顶级闭源模型

简介: DeepSeek-V4正式开源!含V4-Pro(1.6T参数)与V4-Flash(284B参数)双版本,均支持百万token上下文。首创混合注意力架构,Agent能力、世界知识与推理性能全面领先开源模型,数学/代码评测比肩顶级闭源模型。

DeepSeek全新系列模型V4预览版正式上线并同步开源。V4-Pro拥有1.6T总参数(49B激活),V4-Flash拥有284B参数(13B激活),均支持百万token上下文。在Agent能力、世界知识和推理性能上均实现开源领先。

开源地址:

01 核心特性

百万上下文标配 全新混合注意力架构,结合压缩稀疏注意力(CSA)和重度压缩注意力(HCA)。V4-Pro在1M上下文下,单token推理FLOPs仅为V3.2的27%,KV缓存仅为V3.2的10%。

Agent能力大幅提升 Agentic Coding达到开源最佳水平,已成为公司内部员工使用的Agentic Coding模型。使用体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式。针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent产品专项适配优化。

世界顶级推理性能 在数学、STEM、竞赛型代码评测中,超越所有已公开评测的开源模型,比肩世界顶级闭源模型。LiveCodeBench 93.5,Codeforces Rating 3206。

丰富的世界知识 世界知识评测中大幅领先其他开源模型,SimpleQA-Verified 57.9,仅稍逊于Gemini-Pro-3.1。

双版本覆盖不同需求 Pro版追求极致性能,Flash版参数和激活更小,推理能力接近Pro,提供更快捷、经济的API服务。

02 模型版本

模型

总参数

激活参数

上下文

精度

许可证

V4-Pro

1.6T

49B

1M

FP4+FP8混合

MIT

V4-Flash

284B

13B

1M

FP4+FP8混合

MIT

V4-Pro-Base

1.6T

49B

1M

FP8

MIT

V4-Flash-Base

284B

13B

1M

FP8

MIT

注:MoE专家参数使用FP4精度,其余参数使用FP8。Base版本保留完整训练信号,适合微调和研究。

两个版本均支持三种推理模式:

  • Non-think:快速直觉响应,适合日常任务
  • Think High:逻辑分析推理,适合复杂问题
  • Think Max:推理能力全开,探索模型推理边界,建议上下文窗口至少384K tokens

03 结构创新与训练

DeepSeek-V4-Pro:性能比肩顶级闭源模型

  • Agent能力大幅提升:在Agentic Coding评测中达到开源最佳水平,已成为公司内部员工使用的Agentic Coding模型。使用体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式,但仍与Opus 4.6思考模式存在一定差距。
  • 丰富的世界知识:世界知识测评大幅领先其他开源模型,仅稍逊于Gemini-Pro-3.1。
  • 世界顶级推理性能:在数学、STEM、竞赛型代码评测中,超越所有已公开评测的开源模型,比肩世界顶级闭源模型。

DeepSeek-V4-Flash:更快捷高效的经济之选

  • 世界知识稍逊于Pro,但推理能力接近。参数和激活更小,提供更快捷、经济的API服务。
  • Agent评测中简单任务与Pro旗鼓相当,高难度任务仍有差距。

结构创新与超高上下文效率

DeepSeek-V4开创了全新的混合注意力机制,结合压缩稀疏注意力(CSA)和重度压缩注意力(HCA),在token维度进行压缩。V4-Pro在1M上下文下,单token推理FLOPs仅为V3.2的27%,KV缓存仅为V3.2的10%。从现在开始,1M上下文将是DeepSeek所有官方服务的标配。

DeepSeek-V4 和 DeepSeek-V3.2 的计算量和显存容量随上下文长度的变化

此外引入流形约束超连接(mHC)强化残差连接,采用Muon优化器提升收敛速度和训练稳定性。预训练数据超过32T tokens,后训练采用两阶段范式:先通过SFT和GRPO独立培养领域专家,再通过在线蒸馏统一整合到单一模型。

Agent能力专项优化

针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent产品进行适配和优化,在代码任务和文档生成任务上均有提升。

04 模型调用指南

API调用

V4-Pro和V4-Flash已同步上线DeepSeek API,访问时base_url不变,将model参数改为deepseek-v4-prodeepseek-v4-flash即可。

非流式调用样例代码:

from openai import OpenAI
client = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.deepseek.com")

# Turn 1
messages = [{"role": "user", "content": "9.11 and 9.8, which is greater?"}]
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=messages,
reasoning_effort="high"
extra_body={"thinking": {"type": "enabled"}},
)

reasoning_content = response.choices[0].message.reasoning_content
content = response.choices[0].message.content

# Turn 2
# The reasoning_content will be ignored by the API
messages.append(response.choices[0].message)
messages.append({'role': 'user', 'content': "How many Rs are there in the word 'strawberry'?"})
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=messages,
reasoning_effort="high"
extra_body={"thinking": {"type": "enabled"}},
)a
# ...

详细信息请查看API文档:https://api-docs.deepseek.com/zh-cn/guides/thinking\_mode

聊天模板

本次发布未包含Jinja格式的chat template,官方提供了专用的encoding文件夹,包含Python脚本和测试用例,演示如何将OpenAI兼容格式的消息编码为模型输入字符串,以及如何解析模型的文本输出:

from encoding_dsv4 import encode_messages

messages = [
{"role": "user", "content": "hello"},
{"role": "assistant", "content": "Hello! I am DeepSeek.", "reasoning_content": "thinking..."},
{"role": "user", "content": "1+1=?"}
]

prompt = encode_messages(messages, thinking_mode="thinking")

完整文档请参阅模型仓库中的encoding文件夹。

本地推理

首先将HuggingFace模型权重转换为项目所需格式:

export EXPERTS=384
export MP=8
export CONFIG=config.json
python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP}

单机交互式对话:

torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive

从文件批量推理:

torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --input-file ${FILE}

多机推理:

torchrun --nnodes ${NODES} --nproc-per-node $((MP / NODES)) --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --input-file ${FILE}

如需使用FP8精度,删除config.json中的"expert_dtype": "fp4"并在转换时指定--expert-dtype fp8

推荐采样参数:temperature=1.0top_p=1.0。Think Max推理模式建议上下文窗口至少设置为384K tokens。详细说明请参阅模型仓库中的inference文件夹。

模型链接:https://www.modelscope.cn/collections/deepseek-ai/DeepSeek-V4

目录
相关文章
|
20天前
|
人工智能 JSON BI
DeepSeek V4 来了!超越 Claude Sonnet 4.5,赶紧对接 Claude Code 体验一把
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro 的真实体验与避坑记录 本文记录我将 Claude Code 对接 DeepSeek 最新模型(V4Pro)后的真实体验,测试了 Skills 自动化查询和积木报表 AI 建表两个场景——有惊喜,也踩
7101 16
|
19天前
|
人工智能 自然语言处理 测试技术
DeepSeek V4:百万上下文,万亿参数,以及重新泛起涟漪的开源池塘
DeepSeek V4发布Pro(1.6T参数/49B激活)与Flash(284B/13B)双模型,均支持1M上下文、thinking模式及Agent能力。全栈开源(权重+技术报告+API+定价),采用混合注意力架构显著降本,中文长文本与推理能力突出,是当前少有的万亿级开源系统级发布
1299 4
DeepSeek V4:百万上下文,万亿参数,以及重新泛起涟漪的开源池塘
|
20天前
|
API
快来体验:阿里云百炼上线DeepSeek-V4,百万Tokens输入最低仅需1元
阿里云百炼首发DeepSeek-V4-Pro与V4-Flash,申请:https://t.aliyun.com/U/fPVHqY 支持百万Token超长上下文,Agent能力、世界知识及数学推理达开源顶尖水平;API价格与官网一致,输入低至1元/百万Token,即刻体验!
|
19天前
|
人工智能 缓存 BI
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro,跑完 Skills —— OA 审批、大屏、报表、部署 5 大实战场景后的真实体验 ![](https://oscimg.oschina.net/oscnet/up608d34aeb6bafc47f
5919 22
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
|
19天前
|
API 内存技术
DeepSeek-V4正式登陆阿里云百炼!价格低至1元/百万Tokens,性能对标顶级闭源模型
DeepSeek-V4正式登陆阿里云百炼!含Pro与Flash双版本,支持100万字超长上下文及思考/非思考双模式。性能媲美顶级闭源模型,在Agent能力、数学推理、世界知识等评测中领先开源界。API价格低至1元/百万Tokens输入,官方体验链接:https://t.aliyun.com/U/fPVHqY
817 2
DeepSeek-V4正式登陆阿里云百炼!价格低至1元/百万Tokens,性能对标顶级闭源模型
|
1月前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
29012 66
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
|
1月前
|
人工智能 自然语言处理
上下文长度是什么意思?AI大模型128k、256k和1M上下文长度是什么概念?
上下文长度指大模型单次处理的最大Token数,涵盖输入与输出。如Qwen、DeepSeek等支持128K(约16万汉字)、256K乃至1M上下文,直接影响长文档理解、多轮对话与代码分析能力。阿里云百炼/通义平台提供详细参数与阶梯计费
2726 3
|
16天前
|
消息中间件 缓存 API
DeepSeek-V4 核心能力落地与实战应用指南:从底层机制到多智能体架构复盘
本文以SaaS架构师视角,深度解析DeepSeek-V4在真实生产环境中的工程落地:聚焦上下文缓存优化、强约束JSON输出、多智能体协同调度,并分享高并发下的三大避坑实战指南,助力开发者高效构建AI原生应用。
480 6
|
21天前
|
机器学习/深度学习 物联网 Serverless
Qwen3.6发布27B Dense模型,提供旗舰级编程能力,魔搭Serverless训练服务Day0支持
Qwen3.6-27B是通义千问全新推出的27B Dense架构开源大模型,部署友好、推理高效,智能体编程能力达旗舰水平(Terminal-Bench打平Claude 4.5 Opus),原生支持多模态与思考/非思考双模式,已上线魔搭并获Serverless训练Day-0支持。
1241 3
|
17天前
|
存储 缓存 并行计算
DeepSeek-V4 深度解读:百万上下文背后的工程细节
DeepSeek-V4系列突破百万token上下文瓶颈:V4-Pro单token推理FLOPs仅V3.2的27%,KV Cache压至10%;V4-Flash更达10%与7%。依托CSA/HCA混合注意力、mHC残差、Muon优化器与FP4量化,实现长上下文“能用、好用、日常用”。
634 0

热门文章

最新文章