DeepSeek 开源 R1 系列推理模型，性能对标 OpenAI o1，基于纯强化学习完成自我进化，无需监督微调

2025-01-22 1491

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： DeepSeek R1-Zero 是一款基于纯强化学习的开源推理模型，无需监督微调数据，支持多任务泛化与自我进化，适用于数学推理、代码生成等场景。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

高性能推理：DeepSeek-R1 在数学、代码和自然语言推理等任务中表现出色，性能对标 OpenAI o1。
强化学习与自我进化：通过大规模强化学习和极少量标注数据训练，支持模型蒸馏与自我进化。
开源与灵活使用：遵循 MIT License 开源，支持商业使用和模型修改，适用于科研、企业智能化升级等场景。

DeepSeek-R1 是什么

DeepSeek-R1

DeepSeek-R1 是由杭州深度求索人工智能基础技术研究有限公司发布的一款高性能 AI 推理模型，旨在对标 OpenAI 的 o1 正式版。该模型通过大规模强化学习技术进行后训练，仅需极少量标注数据，便能在数学、代码和自然语言推理等任务上取得卓越表现。

DeepSeek-R1 在训练过程中展现了自我进化能力，例如反思和重新评估解题方法。其推理能力在复杂任务中表现出色，尤其适合科研、企业智能化升级等场景。

DeepSeek-R1 的主要功能

DeepSeek-R1

高性能推理能力：在数学、代码和自然语言推理等任务上表现出色，性能与 OpenAI 的 o1 正式版相当。
纯强化学习驱动：完全通过强化学习训练，无需监督微调数据，实现高效的推理能力。
自我进化能力：模型在训练过程中展现出反思、重新评估推理步骤等复杂行为。
模型蒸馏支持：支持用户利用 DeepSeek-R1 的输出进行模型蒸馏，训练更小型的模型，满足特定应用场景的需求。
开源与灵活的许可证：遵循 MIT License 开源，用户可以自由使用、修改和商用。

DeepSeek-R1 的技术原理

纯强化学习训练：从基础模型出发，直接通过大规模强化学习提升推理能力，跳过了传统的监督微调步骤。
GRPO 算法：采用 GRPO（Group Relative Policy Optimization）算法，通过组内归一化奖励信号优化策略，避免了传统 PPO 的高成本。
奖励机制设计：通过稀疏奖励驱动探索，支持长上下文推理和多步验证。
自我进化与涌现行为：模型在训练过程中展现出反思、重新评估推理步骤等复杂行为，这些行为通过强化学习自然涌现。
长上下文支持：支持生成超长的思维链（CoT），平均长度可达 1200 词，为复杂推理提供足够空间。
模型蒸馏技术：DeepSeek-R1 支持模型蒸馏，支持用户利用其输出训练更小型的模型，满足不同应用场景的需求。

如何运行 DeepSeek-R1

1. 使用 HuggingFace 模型

你可以通过 HuggingFace 直接加载 DeepSeek-R1 模型进行推理任务：

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-R1")
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1")

input_text = "请解释一下量子力学的基本原理。"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

2. 使用 vLLM 部署

你可以使用 vLLM 来部署 DeepSeek-R1 模型：

vllm serve deepseek-ai/DeepSeek-R1 --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

3. 使用 SGLang 部署

你也可以使用 SGLang 来启动服务：

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1 --trust-remote-code --tp 2

资源

GitHub 仓库：https://github.com/deepseek-ai/DeepSeek-R1
HuggingFace 仓库：https://huggingface.co/deepseek-ai/DeepSeek-R1
技术论文：https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
在线使用：https://chat.deepseek.com/