DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning论文解读

简介: DeepSeek团队推出了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero通过大规模强化学习训练,展示了卓越的推理能力,但存在可读性和语言混合问题。为此,团队引入多阶段训练和冷启动数据,推出性能与OpenAI-o1-1217相当的DeepSeek-R1,并开源了多个密集模型。实验表明,DeepSeek-R1在多项任务上表现出色,尤其在编码任务上超越多数模型。未来研究将聚焦提升通用能力和优化提示工程等方向。

论文原文链接

https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

DeepSeek_R1.pdf

Abstract

摘要主要描述了DeepSeek团队推出了第一代的推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练而成的模型,没有将有监督微调(SFT)作为初步步骤,展示出了卓越的推理能力。因为通过强化学习,DeepSeek-R1-Zero呈现出了许多强大的推理表现。但是DeepSeek-R1-Zero也面临着可读性差和语言混合等挑战,因此DeepSeek团队在强化学习中引入了多阶段训练和冷启动数据,使得模型的推理性能得到进一步的提升,进而推出DeepSeek-R1。DeepSeek-R1 在推理任务上实现了与 OpenAI-o1-1217 相当的性能。为了支持研究社区,DeepSeek团队开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 从 DeepSeek-R1 提炼出的六个密集模型(1.5B、7B、8B、14B、32B、70B)。

上图是从不同测试任务下DeepSeek-R1、DeepSeek-R1-32B、OpenAI-o1-1217、OpenAI-o1-mini和DeepSeek-V3的性能表现。

Introduction

最近,后训练已成为完整训练管道的重要组成部分。它已被证明可以提高推理任务的准确性,与社会价值观保持一致,并适应用户偏好,同时对预训练所需的计算资源相对较少。
OpenAI 的 o1 (OpenAI, 2024b) 系列模型率先通过增加 Chain-of-Thought 推理过程的长度来引入推理时间缩放。这让其推理性能得到了一定的提升。然而,有效测试时间缩放的挑战仍然是研究界的一个未解决的问题。DeepSeek团队也探索过,包括用奖励模型强化学习搜索算法(如蒙特卡洛树搜索和光束搜索)但是却还是无法达到OpenAI 的 o1系列的性能。

DeepSeek-R1-Zero

在本篇论文中DeepSeek团队 使用纯强化学习(RL)提高语言模型推理就能力,目标是LLM在没有任何监督数据的情况下发展推理能力的潜力,通过纯RL过程自我进化。DeepSeek团队使用 DeepSeek-V3-Base 作为基础模型,并使用 GRPO (Shao et al., 2024) 作为 RL 框架来提高模型在推理中的性能。在训练过程中,DeepSeek-R1-Zero 自然而然地出现了许多强大的推理行为。经过数千次 RL 步骤后,DeepSeek-R1-Zero 在推理基准测试中表现出卓越的性能。但是DeepSeek-R1-Zero还需解决可读性差和语言混合的问题。为了解决这些问题并进一步提高推理性能,引入了 DeepSeek-R1。

DeepSeek-R1

它结合了少量冷启动数据和多阶段训练管道。具体来说,我们首先收集数千个冷启动数据,以微调 DeepSeek-V3-Base 模型。在此之后,我们执行面向推理的 RL,如 DeepSeek-R1Zero。在 RL 过程中接近收敛后,通过在 RL 检查点上进行拒绝采样创建新的 SFT 数据,并结合来自 DeepSeek-V3 的监督数据,在写作、事实 QA 和自我认知等领域,然后重新训练 DeepSeek-V3-Base 模型。使用新数据进行微调后,检查点将经历一个额外的 RL 过程,同时考虑所有场景的提示。经过这些步骤,我们获得了一个名为 DeepSeek-R1 的检查点,它的性能与 OpenAI-o1-1217 相当。

DeepSeek团队一步探索了从 DeepSeek-R1 到更小的致密模型的蒸馏。使用 Qwen2.532B (Qwen, 2024b) 作为基本模型,从 DeepSeek-R1 直接蒸馏的性能优于对其应用 RL。这表明,大型基础模型发现的推理模式对于提高推理能力至关重要。DeepSeek团队开源了蒸馏的 Qwen 和 Llama (Dubey et al., 2024) 系列。DeepSeek团队提炼的 14B 模型的性能大大优于最先进的开源 QwQ-32B-Preview (Qwen, 2024a),提炼的 32B 和 70B 模型在密集模型中的推理基准上创下了新纪录。

Experiment

在多个基准测试中评估模型,涵盖知识、推理、编码等任务。DeepSeek-R1 在多数任务上表现出色,在数学任务上与 OpenAI-o1-1217 相当,在编码任务上超越多数模型,在知识基准测试中优于 DeepSeek-V3。蒸馏后的小模型也取得良好成绩,超越部分非推理模型和开源模型。

Discussion and Future Work

蒸馏大模型推理模式到小模型效果显著,比小模型直接大规模强化学习更有效,但提升智能仍需更强基础模型和大规模强化学习。研究中尝试的过程奖励模型和蒙特卡洛树搜索未成功。未来将从提升通用能力、解决语言混合、优化提示工程和改进软件工程任务性能等方向继续研究。

目录
相关文章
|
编解码 人工智能
蚂蚁百灵大模型推出20亿参数遥感模型SkySense
【2月更文挑战第13天】蚂蚁百灵大模型推出20亿参数遥感模型SkySense
930 1
蚂蚁百灵大模型推出20亿参数遥感模型SkySense
|
机器学习/深度学习 算法 PyTorch
DeepSeek 背后的技术:GRPO,基于群组采样的高效大语言模型强化学习训练方法详解
强化学习(RL)是提升大型语言模型(LLM)推理能力的重要手段,尤其在复杂推理任务中表现突出。DeepSeek团队通过群组相对策略优化(GRPO)方法,在DeepSeek-Math和DeepSeek-R1模型中取得了突破性成果,显著增强了数学推理和问题解决能力。GRPO无需价值网络,采用群组采样和相对优势估计,有效解决了传统RL应用于语言模型时的挑战,提升了训练效率和稳定性。实际应用中,DeepSeek-Math和DeepSeek-R1分别在数学推理和复杂推理任务中展现了卓越性能。未来研究将聚焦于改进优势估计、自适应超参数调整及理论分析,进一步拓展语言模型的能力边界。
2867 8
DeepSeek 背后的技术:GRPO,基于群组采样的高效大语言模型强化学习训练方法详解
|
6月前
|
存储 弹性计算 人工智能
阿里云最新免费云服务器和轻量应用服务器以及学生云服务器申请教程参考
目前阿里云免费的云服务器主要有学生云服务器(300元无门槛券抵扣)和免费试用云服务器,其中学生优惠券抵用专区,涵盖计算、存储、网络、数据库、大模型、云电脑等核心产品。免费试用云服务器分为个人版和企业版及个人企业同享轻量应用服务器,最长免费试用时长是3个月。下面小编来介绍一下最新的阿里云免费云服务器和轻量应用服务器与学生云服务器申请教程。
|
人工智能 数据库 决策智能
Archon – 开源 AI 智能体框架,自主生成代码构建 AI 智能体
Archon 是一个开源的 AI 智能体框架,能够自主生成代码并优化智能体性能,支持多智能体协作、领域知识集成和文档爬取等功能,适用于企业、教育、智能家居等多个领域。
1558 10
Archon – 开源 AI 智能体框架,自主生成代码构建 AI 智能体
|
9月前
|
机器学习/深度学习 安全 Serverless
【创新未发表】【故障诊断】基于连续小波变换-CNN, ResNet, CNN-SVM, CNN-BiGRU, CNN-LSTM的故障诊断研究【凯斯西储大学数据】(Matlab代码实现)
【创新未发表】【故障诊断】基于连续小波变换-CNN, ResNet, CNN-SVM, CNN-BiGRU, CNN-LSTM的故障诊断研究【凯斯西储大学数据】(Matlab代码实现)
617 0
|
机器学习/深度学习 存储 算法
DeepSeek元学习(Meta-Learning)基础与实践
元学习(Meta-Learning),又称“学会学习”,旨在通过少量数据或训练步骤使模型快速适应新任务。本文介绍如何使用DeepSeek构建和训练元学习模型,重点讲解基于优化的元学习方法MAML。我们从定义任务生成器、实现MAML算法到训练模型和快速适应新任务,提供了详细的代码示例和常见问题解决方案。通过本文,读者可以掌握元学习的基础与实践技巧,利用DeepSeek高效构建元学习模型。
|
数据采集 JSON 测试技术
Grequests,非常 Nice 的 Python 异步 HTTP 请求神器
在Python开发中,处理HTTP请求至关重要。`grequests`库基于`requests`,支持异步请求,通过`gevent`实现并发,提高性能。本文介绍了`grequests`的安装、基本与高级功能,如GET/POST请求、并发控制等,并探讨其在实际项目中的应用。
375 3
|
人工智能 编译器 芯片
【AI系统】为什么需要 AI 编译器
本文探讨了AI编译器的黄金年代及其必要性,通过对比传统编译器与AI编译器的区别,揭示了AI编译器在处理复杂神经网络模型时的优化能力和对异构计算平台的支持。随着AI硬件的多样化和软件碎片化问题的加剧,AI编译器成为连接上层应用与底层硬件的关键桥梁,旨在提高性能、降低成本并增强软件的可移植性。
607 2
|
机器学习/深度学习 算法 PyTorch
算法金 | 这次终于能把张量(Tensor)搞清楚了!
本文是关于PyTorch中张量(Tensor)的入门教程,由全网同名\[算法金\]作者撰写。文章介绍了张量的基础概念,强调其在深度学习中的核心地位,并阐述了张量与向量、矩阵的关系。接着,详细讲解了如何在PyTorch中创建和操作张量,包括张量的数学运算、广播机制、索引切片以及变形与重塑。此外,还涉及张量的高级功能,如自动求导系统和高级数学函数。最后,文章提到了张量在深度学习中的应用、性能优化技巧和调试方法,鼓励读者通过实践提升技能。
2060 1
算法金 | 这次终于能把张量(Tensor)搞清楚了!
|
机器学习/深度学习 传感器 算法
强化学习(RL)在机器人领域的应用,尤其是结合ROS(Robot Operating System)和Gazebo(机器人仿真环境)
强化学习(RL)在机器人领域的应用,尤其是结合ROS(Robot Operating System)和Gazebo(机器人仿真环境)
1338 2