模型简介
DeepSeek-V4 是由 DeepSeek 公司研发并开源的全新一代大语言模型,标志着大模型迈入百万上下文普惠时代。V4 系列在架构上进行了创新性升级,通过 Sparse MQA、Fused MoE Mega Kernel 等核心组件,实现了对超长序列计算效率的跨越式提升,并在 Agent 能力、世界知识与推理性能等方面达到顶尖水准。
DeepSeek-V4 提供 Pro 与 Flash 两个版本:
- DeepSeek-V4-Pro:1.6T 总参数(49B 激活),面向高质量推理与复杂 Agent 场景,性能比肩世界顶级闭源模型
- DeepSeek-V4-Flash:284B 总参数(13B 激活),针对速度与成本优化,适合实时交互与大规模部署
DeepSeek-V4 大模型具有以下核心特点:
- 百万字超长上下文:标配 1M token 上下文窗口,可一次性处理整本长篇小说、完整代码仓库或大型文档集,彻底打破长文本处理的场景限制
- 世界顶级推理性能:在数学、STEM、竞赛型代码等评测中,V4-Pro 超越所有已公开评测的开源模型,达到比肩顶级闭源模型的水平
- 强大的 Agent 能力:作为 DeepSeek 内部员工日常使用的 Agentic Coding 模型,编码与工具调用能力优于 Sonnet 4.5,接近 Opus 4.6 非思考模式
- 思考模式切换:支持思考/非思考模式自由切换,兼顾深度推理与快速响应两种场景需求
- 结构化输出与函数调用:原生支持 JSON 输出、Function Calling 等特性,方便与各类业务系统、Agent 框架对接
- 创新架构与高效推理:采用 Sparse MQA、Fused MoE Mega Kernel 等架构,长上下文场景下推理效率显著领先,并适配国产昇腾芯片
部署步骤
- 在计算巢模型市场中找到DeepSeek-V4-Flash模型,点击“开始部署”,或通过链接直达该模型:https://computenest.console.aliyun.com/ai-lab/model/cn-hangzhou/DeepSeek-V4-Flash

- 平台支持SGLang、vLLM部署框架,部署参数大多提供有默认配置,无需修改即可一键部署。
注意:选择ACS集群部署时,在使用GU8TF/GU8TEF/P16EN等显存较大的GPU卡型时,需要提交工单申请对应的GPU卡型白名单后才可进行部署,工单产品分类选择"容器计算服务ACS"。



- 部署成功后,即可按概览页上的Api调用示例进行调用。

更多模型支持
计算巢模型市场持续提供开源社区热门模型的快速部署,模型覆盖Qwen、DeepSeek、Kimi、GLM等开源优秀模型,同时联合ACS团队提供了PD分离的高性能推理方案,欢迎大家使用。
部署过程遇到问题,可以加入官方钉钉群咨询:
