云上玩转DeepSeek系列之六：DeepSeek云端加速版发布，具备超高推理性能

2025-04-28 313

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型训练 PAI-DLC，100CU*H 3个月

交互式建模 PAI-DSW，每月250计算时 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

简介： 作为国内首个千亿级开源 MoE 模型，DeepSeek-R1 凭借其卓越的代码生成与复杂推理能力，已成为开发者构建智能应用的首选。然而，原始模型在产业落地中面临严峻挑战，部署 671B 满血版模型不仅硬件门槛要求很高，同时吞吐效率和响应延迟也受到了制约。PAI 正式推出了优化版 DeepSeek-R1 模型 DeepSeek-R1-PAI-optimized，将大模型推理效率推向了 Next Level。

作为国内首个千亿级开源 MoE 模型，DeepSeek-R1 凭借其卓越的代码生成与复杂推理能力，已成为开发者构建智能应用的首选。然而，原始模型在产业落地中面临严峻挑战，部署 671B 满血版模型不仅硬件门槛要求很高，同时吞吐效率和响应延迟也受到了制约。

PAI 正式推出了优化版 DeepSeek-R1 模型 DeepSeek-R1-PAI-optimized，将大模型推理效率推向了 Next Level。核心亮点有：

技术领先：基于自研的模型优化“黑科技”，模型体积大幅减小的同时，评测表现依然良好
单机部署：单机8卡 GU120 即可实现高性能部署，硬件成本直接减半
性能跃升：相同时延约束下，吞吐能提升492%+；相同吞吐下， 首 token 时延直降86%+，token间时延直降69%+
开箱即用：只需进入 PAI Model Gallery，搜索 DeepSeek-R1-PAI-optimized，实现模型一键部署

一、性能跃升：极致吞吐与超低时延

DeepSeek-R1 优化版模型 DeepSeek-R1-PAI-optimized，相较原模型，在吞吐和延迟方面实现了双优，全面提升推理流程的效率。

实验配置：

优化版部署在单机 GU120，原模型部署在双机 GU120，推理引擎为 vLLM；

数据集为 longalpaca-12k，输入token长度限定为3K，输出 token 长度限定为1K。

实验结果：

DeepSeek-R1 优化版模型的极限总吞吐约达到3865tokens/s，极限输出吞吐达到965tokens/s，相比原模型有50%提升。
在相同的 SLO（TTFT <= 1000ms, TPOT <= 70ms）下，DeepSeek-R1 优化版模型的并发为60，输出吞吐能达到829tokens/s；原模型的并发为10，输出吞吐能达到140tokens/s，优化版模型吞吐提升了492%。
在同等输出吞吐水平下（约500tokens/s），DeepSeek-R1优化版模型的TTFT为405ms，原模型的TTFT为2928ms，降低了86%；DeepSeek-R1优化版模型的TPOT为38ms，原模型的TPOT为123ms，降低了69%。