DeepSeek 开源 R1 系列推理模型,性能对标 OpenAI o1,基于纯强化学习完成自我进化,无需监督微调

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
简介: DeepSeek R1-Zero 是一款基于纯强化学习的开源推理模型,无需监督微调数据,支持多任务泛化与自我进化,适用于数学推理、代码生成等场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 高性能推理:DeepSeek-R1 在数学、代码和自然语言推理等任务中表现出色,性能对标 OpenAI o1。
  2. 强化学习与自我进化:通过大规模强化学习和极少量标注数据训练,支持模型蒸馏与自我进化。
  3. 开源与灵活使用:遵循 MIT License 开源,支持商业使用和模型修改,适用于科研、企业智能化升级等场景。

DeepSeek-R1 是什么

DeepSeek-R1

DeepSeek-R1 是由杭州深度求索人工智能基础技术研究有限公司发布的一款高性能 AI 推理模型,旨在对标 OpenAI 的 o1 正式版。该模型通过大规模强化学习技术进行后训练,仅需极少量标注数据,便能在数学、代码和自然语言推理等任务上取得卓越表现。

DeepSeek-R1 在训练过程中展现了自我进化能力,例如反思和重新评估解题方法。其推理能力在复杂任务中表现出色,尤其适合科研、企业智能化升级等场景。

DeepSeek-R1 的主要功能

DeepSeek-R1

  • 高性能推理能力:在数学、代码和自然语言推理等任务上表现出色,性能与 OpenAI 的 o1 正式版相当。
  • 纯强化学习驱动:完全通过强化学习训练,无需监督微调数据,实现高效的推理能力。
  • 自我进化能力:模型在训练过程中展现出反思、重新评估推理步骤等复杂行为。
  • 模型蒸馏支持:支持用户利用 DeepSeek-R1 的输出进行模型蒸馏,训练更小型的模型,满足特定应用场景的需求。
  • 开源与灵活的许可证:遵循 MIT License 开源,用户可以自由使用、修改和商用。

DeepSeek-R1 的技术原理

  • 纯强化学习训练:从基础模型出发,直接通过大规模强化学习提升推理能力,跳过了传统的监督微调步骤。
  • GRPO 算法:采用 GRPO(Group Relative Policy Optimization)算法,通过组内归一化奖励信号优化策略,避免了传统 PPO 的高成本。
  • 奖励机制设计:通过稀疏奖励驱动探索,支持长上下文推理和多步验证。
  • 自我进化与涌现行为:模型在训练过程中展现出反思、重新评估推理步骤等复杂行为,这些行为通过强化学习自然涌现。
  • 长上下文支持:支持生成超长的思维链(CoT),平均长度可达 1200 词,为复杂推理提供足够空间。
  • 模型蒸馏技术:DeepSeek-R1 支持模型蒸馏,支持用户利用其输出训练更小型的模型,满足不同应用场景的需求。

如何运行 DeepSeek-R1

1. 使用 HuggingFace 模型

你可以通过 HuggingFace 直接加载 DeepSeek-R1 模型进行推理任务:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-R1")
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1")

input_text = "请解释一下量子力学的基本原理。"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

2. 使用 vLLM 部署

你可以使用 vLLM 来部署 DeepSeek-R1 模型:

vllm serve deepseek-ai/DeepSeek-R1 --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

3. 使用 SGLang 部署

你也可以使用 SGLang 来启动服务:

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1 --trust-remote-code --tp 2

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
7月前
|
人工智能 测试技术 API
PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力
PaperBench是OpenAI推出的开源评测框架,通过8316个评分节点系统评估AI智能体复现学术论文的能力,涵盖理论理解、代码实现到实验执行全流程。
476 30
PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力
|
7月前
|
人工智能 搜索推荐 开发者
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题,覆盖影视、科技、艺术等九大领域,其最新Deep Research模型以51.5%准确率展现复杂信息整合能力,为AI代理的浏览能力评估建立新标准。
467 4
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
|
8月前
|
机器学习/深度学习 人工智能 开发者
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
GPT-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型,基于 GPT-4o-mini 架构,采用知识蒸馏技术,适合在资源受限的设备上运行,具有高效、实时和高性价比的特点。
430 2
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
|
8月前
|
人工智能 自然语言处理 语音技术
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈
GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型,支持多语言、多情感控制,适用于智能客服、教育学习、智能助手等多种场景。
449 2
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈
|
7月前
|
人工智能 自然语言处理 测试技术
自然语言生成代码一键搞定!Codex CLI:OpenAI开源终端AI编程助手,代码重构+测试全自动
Codex CLI是OpenAI推出的轻量级AI编程智能体,基于自然语言指令帮助开发者高效生成代码、执行文件操作和进行版本控制,支持代码生成、重构、测试及数据库迁移等功能。
1325 0
自然语言生成代码一键搞定!Codex CLI:OpenAI开源终端AI编程助手,代码重构+测试全自动
|
8月前
|
机器学习/深度学习 人工智能 API
GPT-4o-Transcribe:OpenAI 推出高性能语音转文本模型!错误率暴降90%+方言通杀,Whisper当场退役
GPT-4o-Transcribe 是 OpenAI 推出的高性能语音转文本模型,支持多语言和方言,适用于复杂场景如呼叫中心和会议记录,定价为每分钟 0.006 美元。
418 2
|
8月前
|
Web App开发 人工智能 JavaScript
Nanobrowser:开源版OpenAI Operator!AI自动操控浏览器,复杂网页任务一键搞定
Nanobrowser 是一款开源的 Chrome 扩展工具,基于多智能体系统实现复杂的网页任务自动化,支持多种大型语言模型,完全免费且注重隐私保护。
1088 1
|
9月前
|
存储 人工智能 JSON
Open-Deep-Research:开源复现版 Deep Research,支持切换多种大模型,不再依赖 OpenAI o3
Open Deep Research 是一个开源的 AI 智能体,支持多种语言模型,具备实时数据提取、多源数据整合和AI推理功能。
2013 16
|
9月前
|
人工智能 搜索推荐 机器人
D1net阅闻|据悉微软致力于在365 Copilot产品中添加非OpenAI模型
D1net阅闻|据悉微软致力于在365 Copilot产品中添加非OpenAI模型
|
8月前
|
人工智能 测试技术 数据中心
马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI
马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI
119 0

热门文章

最新文章