论文精读:DeepSeek-R1是如何通过强化学习增强LLM推理能力的?

简介: DeepSeek-R1通过纯强化学习与冷启动结合,实现强大推理能力,并利用蒸馏技术将“智慧”传递给小模型,推动大模型训练新范式。

前言

你好,我是喵喵侠。众所周知,在AI人工智能领域,大模型推理能力的突破,一直是技术革新的核心挑战,而DeepSeek-R1 的横空出世,凭借其基于纯强化学习的多阶段训练框架,获得了与OpenAI o1系列模型的性能比肩的能力。自此以后,各大AI厂商都推出了自家的推理模型,这场由算法架构创新引发的推理革命,或将重新定义人类与智能体协同进化的未来图景。

也许你和我一样好奇,DeepSeek-R1 是如何获得如此强大的推理能力。为此我找了一篇DeepSeek官方出品的论文,让我们一探究竟吧!

背景介绍

论文的原英文标题是《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via  Reinforcement Learning》,在线阅读链接如下:

[2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

在论文的开头,介绍了DeepSeek官方的第一代推理模型——DeepSeek-R1-Zero。它是通过大规模强化学学习(RL)训练而成,而且没有采用监督微调(SFT)作为初始步骤,却展示出了卓越的推理能力。然而这也是有缺陷的,实际测试发现,它存在可读性差、语言混合的挑战。具体表现为,你在对话的时候,它的回复可能不容易被人类理解,用中文提问回复得到的却是英文的情况。为了解决这样的问题,并进一步提高推理性能,官方推出了DeepSeek-R1 模型,它在推理任务上,实现了与OpenAI-o1-1217 比肩的性能。官方为了推进研究,开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 从 DeepSeek-R1 提炼出的六个密集模型(1.5B、7B、8B、14B、32B、70B)。

核心要点

传统方法 vs RL

传统方法需要依赖大量监督数据来提升模型性能,而DeepSeek官方证明就仅用RL(甚至不需要冷启动数据)也能够显著提高推理能力。与此同时,加入少量高质量冷启动数据,可以进一步加速收敛和提升性能。最后官方把这种推理能力,通过蒸馏技术传递给了小模型。

如果把大模型训练比喻成提升学生考试成绩,传统方式就像是要给他提供大量的辅导材料和作业,以量变换质变;而通过游戏奖励机制(RL),可以激励学生自主思考,往往能获得意想不到的效果。在此基础上,仅需要一点点的的“点拨”(冷启动数据),学习的效果更加明显。最后还可以把这种“智慧”浓缩后,分享给其他的小朋友(小模型)。

DeepSeek-R1-Zero:纯RL训练

DeepSeek-R1-Zero采用的是纯RL训练,训练过程有以下几个要点:

  • 强化学习算法(GRPO):采用Group Relative Policy Optimization,省去传统RL中需要巨大计算资源的“评判者”,而是通过组内比较来估计奖励。
  • 奖励建模:设置两种奖励:①准确性奖励(例如数学题要求答案格式规范);②格式奖励(要求把推理过程写在指定标记中)。
  • 模板训练:设计简单模板,要求模型先输出推理过程再给出最终答案,保证结构统一。
  • 性能与自我进化:随着训练进行,模型不仅准确率大幅提升,还自发出现反思、探索不同解题策略等“意外智慧”。

简单理解就是无师自通,通过组内比分的方式,可以快速判断出谁的表现更好。如果正确符合要求就得分。随着训练时间的增加,模型就会想一个小学生一样逐渐学会反思,不断的检查自己的步骤,从而变得越来越聪明。

DeepSeek-R1:带冷启动的RL训练

前面有说到,加入少量的冷启动,训练效果会更好。在DeepSeek-R1中,首先通过少量精心构造的长链式思考(CoT)数据对基础模型进行初步微调,使其在训练初期更加稳定和易读;然后继续用RL强化推理能力;接着,通过拒绝采样收集高质量的监督数据,再次进行微调;最后,再进行一次RL训练,使模型兼顾各种场景下的表现。

这个冷启动的阶段,就好比给孩子先上个“预备课”,让他知道怎样思考比较清晰,然后再进入激烈的“考试”中练习。最后,还让他参加全面辅导,既能独立思考也能应对各种考试场景,变得更全面。

蒸馏技术:让小模型也能变得聪明

官方用DeepSeek-R1作为“教师模型”,通过生成大约80万条推理训练样本,对Qwen和Llama等小模型进行监督微调。结果表明,小模型经过蒸馏后在各项推理任务上表现大幅提升,有的甚至超越了部分大模型。

如果说大模型是一个资深教授,那么小模型就像是他的学生。教授通过讲课的方式,传授知识给学生,学生习的这些知识后,即便没有教授的高水平,也能胜任助教的工作,甚至在某些特定的领域可以独当一面。

实验结果

论文在多个推理、数学、编程和知识问答的基准上,对DeepSeek-R1及其蒸馏版本进行了详细的评测。结果显示如下:

  • 在数学任务(如AIME、MATH-500)上,DeepSeek-R1表现与顶级模型相当;
  • 在编程任务上(例如Codeforces竞赛),其表现也十分抢眼;
  • 在开放问答和写作任务中,模型能生成清晰、连贯的答案;
  • 蒸馏后的小模型在多个指标上均有明显提升。

蒸馏 vs 强化学习

在论文,可以看到中单纯依靠大规模RL训练小模型与通过蒸馏大模型知识训练小模型的效果对比。结果表明,直接蒸馏得到的小模型效果更佳,且更加经济高效;而仅靠RL训练小模型往往需要更多计算资源,且效果不如预期。

由此看来,获得了大模型“智慧”的小模型,比完全从头开始摸索要快许多,这就好像有个前辈把自己的宝贵经验告诉了后辈,后辈就能少走很多弯路。

不成功的尝试

论文还讨论了其他尝试,例如使用过程奖励模型(PRM)和蒙特卡洛树搜索(MCTS)来提升推理过程,但均因设计难度大、易出现“奖励漏洞”等问题,效果不如预期。

由此看来,其他的方式理论上可行,但并不完善,缺少很多实践。目前简单有效的方式还是奖励机制。

结语

论文总结了通过纯RL训练与冷启动数据结合的DeepSeek-R1在推理任务上的成功,并证明了蒸馏技术在传递推理能力上的有效性,并且指出了接下来工作聚焦的方向。官方表示,未来会提升模型在多语言和复杂对话中的表现,改进长链式思考在软件工程等领域的应用,进一步优化训练流程,减少对大规模计算资源的依赖。

总得来说,这种通过奖励机制让模型“自学成才”,并把大模型的智慧传递给更小的模型,给大模型的训练提供了一种全新的方向。虽然目前还存在一些问题(多语言混杂和部分场景表现不佳),但未来改进方向明确,就是不断的优化教学方法,让每个学生都发挥最大潜力。

希望通过本文的论文精读,让你能对DeepSeek-R1的训练方法有个大致的了解。后续我会更新更多关于DeepSeek相关的内容,敬请期待。

目录
相关文章
|
4月前
|
云安全 人工智能 算法
以“AI对抗AI”,阿里云验证码进入2.0时代
三层立体防护,用大模型打赢人机攻防战
1712 10
|
Kubernetes Cloud Native 应用服务中间件
云原生|kubernetes|networkPolicy网络策略详解
云原生|kubernetes|networkPolicy网络策略详解
424 0
|
3月前
|
存储 人工智能 编解码
2026年阿里云 GPU 云服务器全解析:规格、费用与应用场景
在人工智能、科学计算等高性能需求场景中,阿里云 GPU 云服务器凭借专业 GPU 卡与优化架构,成为高效算力支撑方案。其搭载 NVIDIA A10、V100、T4 等主流 GPU 型号,结合高性能 CPU 与弹性架构,覆盖从模型训练到图形渲染的多元需求,以下从核心规格、费用体系、技术优势及场景适配展开解析。
|
5月前
|
存储 人工智能 自然语言处理
构建AI智能体:三十七、从非结构化文本到结构化知识:基于AI的医疗知识图谱构建与探索
知识图谱是一种用图结构表示实体及其关系的技术,通过三元组(主体-关系-客体)构建语义网络。文章以医疗领域为例,详细介绍了知识图谱的构建流程:数据预处理、实体识别、关系抽取、知识融合、存储与可视化等步骤。知识图谱可应用于智能问答、辅助诊断、药物研发等场景,其结构化特性可弥补大语言模型的不足,二者结合能提升AI系统的准确性和可解释性。文章还展示了基于大模型的医疗知识图谱构建代码示例,涵盖实体识别、关系抽取、图谱存储和智能问答等核心功能,体现了知识图谱在专业领域的实用价值。
970 12
|
3月前
|
JavaScript 搜索推荐 测试技术
为什么要使用 Git 作为代码版本管理工具?
本文记录了一次Vue2项目打包卡在最后一步的排查过程。作者发现测试环境打包被阻塞,通过回退配置定位到`code-inspector-plugin`插件及`.env.test`中`NODE_ENV=production`的错误配置,修正后问题解决。
87 1
|
9月前
|
人工智能 安全 算法
长擎安全操作系统:构筑企业级服务器安全的坚固基石
长擎安全操作系统,以自主可控内核为基础,构建七层纵深防御体系,全面支持国密算法与可信计算,适配能源、金融、制造等关键行业,为企业服务器提供全方位安全保障,助力数字化转型安全发展。
|
设计模式 SQL 算法
「全网最细 + 实战源码案例」设计模式——模板方法模式
模板方法模式是一种行为型设计模式,定义了算法的骨架并在父类中实现不变部分,将可变部分延迟到子类实现。通过这种方式,它避免了代码重复,提高了复用性和扩展性。具体步骤由抽象类定义,子类实现特定逻辑。适用于框架设计、工作流和相似算法结构的场景。优点包括代码复用和符合开闭原则,缺点是可能违反里氏替换原则且灵活性较低。
367 7
「全网最细 + 实战源码案例」设计模式——模板方法模式
|
机器学习/深度学习 存储 算法
DistilQwen2.5发布:通义千问蒸馏小模型再升级
为解决大语言模型在资源有限环境下的高计算成本和复杂性问题,阿里云推出了基于 Qwen2.5 的轻量化模型系列 DistilQwen2.5。该模型通过双层蒸馏框架、数据优化策略及参数融合技术,在保留性能的同时显著降低计算资源消耗。本文提供了详细的使用教程和代码示例,方便用户在 PAI 平台上调用。
|
机器学习/深度学习 传感器 运维
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
本文探讨了时间序列分析中数据缺失的问题,并通过实际案例展示了如何利用机器学习技术进行缺失值补充。文章构建了一个模拟的能源生产数据集,采用线性回归和决策树回归两种方法进行缺失值补充,并从统计特征、自相关性、趋势和季节性等多个维度进行了详细评估。结果显示,决策树方法在处理复杂非线性模式和保持数据局部特征方面表现更佳,而线性回归方法则适用于简单的线性趋势数据。文章最后总结了两种方法的优劣,并给出了实际应用建议。
844 7
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例