DeepSeek 开源 R1 系列推理模型,性能对标 OpenAI o1,基于纯强化学习完成自我进化,无需监督微调

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: DeepSeek R1-Zero 是一款基于纯强化学习的开源推理模型,无需监督微调数据,支持多任务泛化与自我进化,适用于数学推理、代码生成等场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 高性能推理:DeepSeek-R1 在数学、代码和自然语言推理等任务中表现出色,性能对标 OpenAI o1。
  2. 强化学习与自我进化:通过大规模强化学习和极少量标注数据训练,支持模型蒸馏与自我进化。
  3. 开源与灵活使用:遵循 MIT License 开源,支持商业使用和模型修改,适用于科研、企业智能化升级等场景。

DeepSeek-R1 是什么

DeepSeek-R1

DeepSeek-R1 是由杭州深度求索人工智能基础技术研究有限公司发布的一款高性能 AI 推理模型,旨在对标 OpenAI 的 o1 正式版。该模型通过大规模强化学习技术进行后训练,仅需极少量标注数据,便能在数学、代码和自然语言推理等任务上取得卓越表现。

DeepSeek-R1 在训练过程中展现了自我进化能力,例如反思和重新评估解题方法。其推理能力在复杂任务中表现出色,尤其适合科研、企业智能化升级等场景。

DeepSeek-R1 的主要功能

DeepSeek-R1

  • 高性能推理能力:在数学、代码和自然语言推理等任务上表现出色,性能与 OpenAI 的 o1 正式版相当。
  • 纯强化学习驱动:完全通过强化学习训练,无需监督微调数据,实现高效的推理能力。
  • 自我进化能力:模型在训练过程中展现出反思、重新评估推理步骤等复杂行为。
  • 模型蒸馏支持:支持用户利用 DeepSeek-R1 的输出进行模型蒸馏,训练更小型的模型,满足特定应用场景的需求。
  • 开源与灵活的许可证:遵循 MIT License 开源,用户可以自由使用、修改和商用。

DeepSeek-R1 的技术原理

  • 纯强化学习训练:从基础模型出发,直接通过大规模强化学习提升推理能力,跳过了传统的监督微调步骤。
  • GRPO 算法:采用 GRPO(Group Relative Policy Optimization)算法,通过组内归一化奖励信号优化策略,避免了传统 PPO 的高成本。
  • 奖励机制设计:通过稀疏奖励驱动探索,支持长上下文推理和多步验证。
  • 自我进化与涌现行为:模型在训练过程中展现出反思、重新评估推理步骤等复杂行为,这些行为通过强化学习自然涌现。
  • 长上下文支持:支持生成超长的思维链(CoT),平均长度可达 1200 词,为复杂推理提供足够空间。
  • 模型蒸馏技术:DeepSeek-R1 支持模型蒸馏,支持用户利用其输出训练更小型的模型,满足不同应用场景的需求。

如何运行 DeepSeek-R1

1. 使用 HuggingFace 模型

你可以通过 HuggingFace 直接加载 DeepSeek-R1 模型进行推理任务:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-R1")
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1")

input_text = "请解释一下量子力学的基本原理。"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

2. 使用 vLLM 部署

你可以使用 vLLM 来部署 DeepSeek-R1 模型:

vllm serve deepseek-ai/DeepSeek-R1 --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

3. 使用 SGLang 部署

你也可以使用 SGLang 来启动服务:

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1 --trust-remote-code --tp 2

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
13天前
|
人工智能 搜索推荐 API
node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体
node-DeepResearch 是一个开源 AI 智能体项目,支持多步推理和复杂查询,帮助用户逐步解决问题。
163 27
node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体
|
17天前
|
机器学习/深度学习 人工智能 算法
o3-mini:OpenAI 发布最新推理模型,强大的STEM推理能力,灵活调整推理强度
OpenAI o3-mini是OpenAI推出的全新推理模型,专为科学、数学和编程等技术领域优化,支持三种推理强度,灵活调整性能。
157 25
o3-mini:OpenAI 发布最新推理模型,强大的STEM推理能力,灵活调整推理强度
|
11天前
|
存储 人工智能 JSON
Open-Deep-Research:开源复现版 Deep Research,支持切换多种大模型,不再依赖 OpenAI o3
Open Deep Research 是一个开源的 AI 智能体,支持多种语言模型,具备实时数据提取、多源数据整合和AI推理功能。
222 16
|
28天前
|
数据采集 人工智能 异构计算
Sky-T1:开源版"OpenAI o1-preview",训练成本竟不到450美元
Sky-T1是NovaSky发布的开源推理AI模型,支持低成本训练,性能优异,适用于数学问题解决、编程评估和科学研究。
119 3
Sky-T1:开源版"OpenAI o1-preview",训练成本竟不到450美元
|
4月前
|
机器学习/深度学习 人工智能 并行计算
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
438 2
|
2月前
|
Go 开发工具
百炼-千问模型通过openai接口构建assistant 等 go语言
由于阿里百炼平台通义千问大模型没有完善的go语言兼容openapi示例,并且官方答复assistant是不兼容openapi sdk的。 实际使用中发现是能够支持的,所以自己写了一个demo test示例,给大家做一个参考。
|
1月前
|
机器学习/深度学习 人工智能 安全
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
GLM-Zero 是智谱AI推出的深度推理模型,专注于提升数理逻辑、代码编写和复杂问题解决能力,支持多模态输入与完整推理过程输出。
226 24
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
|
2月前
|
人工智能 自然语言处理 机器人
OpenAI推出具有图像上传和分析功能的完整o1模型,并首次推出ChatGPT Pro
OpenAI推出具有图像上传和分析功能的完整o1模型,并首次推出ChatGPT Pro
|
2月前
|
人工智能 自然语言处理 计算机视觉
OpenAI发布sCM提升50倍效率,扩散模型重大技术突破!
OpenAI近期发布了Simplified Consistency Models (sCM) 技术,这是在扩散模型基础上的重大改进,实现了50倍效率提升。sCM通过简化和稳定连续时间一致性模型的训练过程,解决了传统模型中的离散化误差和训练不稳定性问题,显著提升了生成模型的性能和效率。在多个数据集上的测试结果表明,sCM不仅超越了现有模型,还在生成模型的实际应用中展现了巨大潜力。论文地址:https://arxiv.org/abs/2410.11081
66 3
|
5月前
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
485 73

热门文章

最新文章