DeepSeek-R1论文细节时间线梳理

简介: 中国AI初创公司DeepSeek发布了大语言模型R1,该模型在推理任务上媲美OpenAI的ChatGPT,且训练成本仅600万美元。DeepSeek由杭州对冲基金High-Flyer支持,总部位于杭州和北京。R1基于V3-Base,使用监督微调和强化学习训练,针对硬件限制进行了优化。模型在多语言处理、推理风格等方面表现出色,但存在一些局限性,如法语表现欠佳、偶尔切换语言等。DeepSeek的创新技术包括FP8量化、多头潜在注意力和蒸馏方法,引发了广泛关注和讨论。开源社区正积极尝试复现其结果,但面临训练数据和代码未公开的挑战。DeepSeek的低成本高效训练策略为AI领域带来了新的思考方向。

0 前言

2025年1月10日,DeepSeek发布名为R1的大语言模型,该初创公司声称其在推理任务上可与OpenAI的ChatGPT o1媲美。该应用在创纪录的时间内登顶App Store排行榜,不仅吸引科技行业关注,也引发了全球范围内的广泛讨论。其中一个尤引人注目的声明是:该模型训练成本低于600万美元(而OpenAI在GPT-4花费高达1亿美元)。这一消息在股市和新闻媒体中引发轩然大波。

但对我们研发,更有趣的是尝试理解DeepSeek究竟做了什么,以及他们是如何做到的。我们从关键事实和初步印象开始,然后探讨从他们的论文中了解到的模型架构、训练数据、评估方法以及所使用的技术。最后,我们将看看复现他们结果的尝试以及未来的发展方向。

1 DeepSeek-R1相关事实

1.1 谁构建了它?

DeepSeek是一家成立于2023年5月的中国AI初创公司,总部位于杭州和北京。它由位于杭州的中国对冲基金High-Flyer支持。High-Flyer和DeepSeek均由梁文峰创立。

2025年1月10日,DeepSeek发布了他们的移动应用;2025年1月20日,公司在Huggingface上发布了R1的权重,并在GitHub上发布了R1的推理代码

1.2 DeepSeek到底构建了什么?

DeepSeek构建了两种类型的模型以及使用它们的应用程序。这两种模型的最新版本分别是V3和R1:

  • V3,顾名思义,是通用语言模型的第三个版本
  • R1是基于V3-Base的推理模型

他们还提供了模型的蒸馏版本,以便可以在笔记本电脑上运行。V3有两个版本:

  • 一个基于Llama(Meta的开源权重模型)
  • 另一个基于Qwen(阿里巴巴的开源权重模型)

虽然他们发布了R1模型的权重和运行模型推理的代码,但他们未发布任何训练代码或所有硬件优化相关代码。

2 使用DeepSeek的印象

我们身边打工人通过公司数据中心部署的DeepSeek,而其他人则使用ollama在PC运行R1的蒸馏模型。然后,我们花了一些时间像使用其他模型一样使用它——从编码到推理问题的任务。

根据近期使用体验,以下是一些初步印象和想法:

  • 多语言表现在英语和中文表现出色,但法语表现不够流畅,偶尔会出现意外的中文或阿拉伯字符,并且在复杂推理时偶尔会切换回英语
  • 推理风格有时过冗长——有时会绕圈子
  • 我们希望了解更多关于DeepSeek如何考虑安全和隐私方面的信息——特别是从用户角度
  • 模型实例有各种大小,可安装在各种消费级硬件,包括节能模型
  • 托管版本似乎具有与本土政府世界观一致的护栏。模型本身可能反映了与该世界观一致的视角。
  • 无法了解用于训练它的数据(尽管值得注意的是,Llama、OpenAI、Claude也是如此)。这使得一些政府和企业感到不安

3 咋用DeepSeek?

3.1 官方

3.2 本地运行工具

ollama run deepseek-r1:32b在本地运行蒸馏版本的模型

3.3 云服务商

也迅速跟进。可在GCP Vertex AIAWS BedrockAzure AI Foundry上部署DeepSeek模型。还可将其部署为一个NVIDIA NIM

DeepSeek模型足够有趣,值得考虑将其添加到你的AI平台工具箱,与其他开源权重模型一起使用,因为应用程序构建者会希望为不同目的实验或使用不同的模型。

4 DeepSeek报告的性能结果可信吗?

DeepSeek的结果尚未被复现。正密切关注Huggingface在openR1上复现它的尝试。我们还想了解模型在训练期间是否接触过基准数据,以及论文中使用的评估方法是否合适。话虽如此,我们无任何具体理由认为这些结果不真实。

引发热议的一点是2.788M GPU小时(估计556万美元)的训练成本(参见这篇论文中的第一个表格)。V3论文清楚说明了支持这一价格点的假设,但也提出警告,称这仅代表最后一次训练运行的成本。鉴于行业对这一系列模型的迅速报道,怀疑这个数字在许多报道中被断章取义。

5 DeepSeek的技术组件

R1是在V3-Base上使用监督微调(SFT)和强化学习(RL)进行训练的。它们是经高度优化的Transformer模型,基于环境限制(特别是美国政府对NVIDIA H100芯片的出口管制)针对特定的硬件/软件框架进行了优化。DeepSeek还以一些有趣方式结合新旧技术。

5.1 V3-Base

V3-Base使用强大的混合专家(Mixture-of-Experts)方法。与Mixtral类似,但更高效:

  • V3-Base训练6710亿个参数
  • 而Llama有个4050亿的版本

V3-Base和Llama 3.1 405B都用FP8量化。V3-Base在14.8万亿个token上进行了训练,而Llama在15万亿个token上进行了训练。它们都支持128K上下文窗口。

关键区别

  • V3论文提到他们只使用278.8万GPU小时:据了解,用于训练V3的278.8万GPU小时仅用于最后一次完整的训练运行
  • Llama 3.1 405B FP8的Hugging Face页面显示他们使用3930万累计GPU小时:报告的数字是累计数字

最终,如何解析这些词语的细节将会揭晓,但目前仍不清楚是否可以进行一对一比较。例如,V3是在一些由当时未发布的R1生成的数据上进行训练的;这时,V3的训练成本是否应包括R1的训练成本呢?

R1是在V3-Base上使用SFT和强化学习(RL)构建的,以增强模型的推理能力。R1使用长链思维模式进行推理。R1随后被蒸馏成更小的密集模型。与V3-Base一样,他们发布了基于Llama、Qwen的版本。

他们还发布R1-Zero,不使用SFT,并有一些限制,如可读性和语言混合。这些限制意味R1-Zero可能对研究人员比用户更有趣。为克服这些限制,他们在RL前应用了多阶段训练和冷启动数据。

V3是通过使用R1的推理、验证和反思模式生成的数据进一步改进V3-Base而构建的,从而创建了一个更全面的模型V3。

所有这些模型都是使用NVIDIA H800 GPU训练。这些是为中国市场制造的H100 GPU版本,并如前所述,为遵守美国的出口管制,它们在某种程度受限。H800芯片的芯片间互连速度是H100一半(NVLink上约为400GB/s vs 900GB/s)。

5.2 训练成本

训练R1的成本据报道为558万美元。我们知道他们是错的,但不清楚他们错得有多离谱。这计算来自V3技术报告,是训练DeepSeek V3的成本。CNN正确地指出这个成本是基础模型的成本——但他们没帮助人们理解两者之间区别。

R1是在V3-Base之上训练,因此训练R1的累计成本肯定高于训练基础模型的成本。V3技术报告表一中的数字似乎是一次完整训练运行的成本,可能是最后一次完整的训练运行。如想复制训练过程,可能需要进行不止一次完整的训练运行。

还有相互矛盾报道称,DeepSeek可以使用50,000个A100,这与OpenAI用于训练GPT-4的25,000个A100更接近。

若你今天在美国租用50,000个A100 GPU,可能需支付约1.35美元/GPU小时(如能找到这么多可用GPU)。大约是每周1134万美元。在DeepSeek的案例中,他们似乎使用其对冲基金支持者High-Flyer早先获得的GPU,这些GPU原本用于高频交易。

6 深入探讨DeepSeek的独特之处

DeepSeek以多种复杂方式修改了模型架构、训练技术和数据,以充分利用他们可用的有限硬件。现在让我们从底层开始逐一探讨这些内容。

6.1 针对可用硬件的优化

与H100相比,DeepSeek必须使用的H800有两个关键限制:

  • 它们的GPU到GPU互连带宽是H100的一半
  • 内存要小得多:80GB V.S 188GB

有趣的是,DeepSeek似乎将这些限制转为优势。“DeepSeek-V3的经济训练成本……是通过我们对算法、框架和硬件的优化协同设计实现,”DeepSeek团队写道。即他们做出的决策使他们能够充分利用他们的可用资源。

如他们用FP8显著减少所需内存量。V3论文指出,“低精度训练已成为高效训练的一个有前途解决方案”。但这项工作前,FP8被认为是高效但效果较差;DeepSeek展示了咋有效用它。“这项工作,我们引入一个FP8混合精度训练框架,并首次在超大规模模型上验证其有效性。通过支持FP8计算和存储,实现加速训练和减少GPU内存使用。”

他们进一步在非常底层的层次对受限硬件进行优化。V3论文还指出,“我们还开发了高效的跨节点全对全通信内核,以充分利用InfiniBand(IB)和NVLink带宽。精心优化了内存占用,使得在不使用昂贵的张量并行的情况下训练DeepSeek-V3成为可能。结合这些,实现了高训练效率。”这是一些非常深入的工作,以充分利用他们受限的硬件。

论文还讨论了“至于训练框架,我们设计了DualPipe算法以实现高效的管道并行,它具有更少的管道气泡,并通过计算-通信重叠隐藏大部分训练期间的通信。这种重叠确保了随着模型的进一步扩展,只要我们保持恒定的计算-通信比,我们仍然可以在节点之间使用细粒度的专家,同时实现接近零的全对全通信开销。”相对于“正常”的分布式训练扩展方式(通常只是“向堆中添加更多硬件”),恒定的计算-通信比和接近零的全对全通信开销引人注目。

这是一个明显的例子,说明需求是发明之母。

6.2 强化学习在训练后对基准性能的影响

DeepSeek在V2和V3中使用了GRPO(组相对策略优化)进行强化学习。但显然,强化学习对推理模型R1的影响很大——它对基准性能的影响是显著的。

通过使用GRPO将奖励应用于模型,DeepSeek避免了用大型“批评”模型;这再次节省内存。但GRPO采用基于规则的方法,虽然它在有客观答案的问题(如编码和数学)效果更好,但在答案主观或多变的领域可能遇难。随更多人在不同环境中使用它,跟踪这些权衡将是有趣的。

6.3 多头潜在注意力(MLA)

多头潜在注意力是DeepSeek在V2论文中引入的一种多头注意力的变体。根据这篇文章,虽然以前的多头注意力技术被认为是一种权衡,即在LLM训练中为获得更好扩展性而降低模型质量,但DeepSeek表示,MLA不仅允许扩展,还提高了模型质量。期待深入研究这一点。

6.4 蒸馏 vs 强化学习

R1论文有关于蒸馏与强化学习的有趣讨论。DeepSeek团队写道,他们的工作使得以下结论成为可能:

  • “首先,将更强大的模型蒸馏到较小的模型中会产生出色的结果,而依赖于本文中提到的大规模RL的较小模型需要巨大的计算能力,甚至可能无法达到蒸馏的性能
  • 其次,虽然蒸馏策略既经济又有效,但超越智能边界可能仍需更强大的基础模型和更大规模强化学习。”

第一个结论有趣且直观。第二个结论令人放心——至少,他们并没有完全颠覆我们对深度学习在显著计算需求方面的理解。

6.4 可从失败中学到啥?

DeepSeek尝试了什么但没有成功?

  • 首先,使用过程奖励模型(PRM)来指导强化学习在大规模上是不可行的。但它仍可用于重新排名前N个响应
  • 其次,蒙特卡罗树搜索(MCTS),即AlphaGo和AlphaZero使用的方法,无法扩展到一般推理任务,因为问题空间不像国际象棋甚至围棋那样“受限”。还记得不到十年前,围棋空间被认为过于复杂以至于无法计算?现在,它被认为是“受限的”。

6.5 其他趣事

  • 一个非常令人印象深刻的编码基准
  • 训练后+扩展推理,看起来是制作非常有效模型的可行策略

7 还会发生什么惊喜?

7.1 打破基准和模型的循环

每次发布新的更好模型,我们都怀疑它在训练时是否接触过基准数据。“它是为考试而学习,还是真正掌握了学科?”

因为基准数据集的恶性循环;这是一个无休止的误导性炒作螺旋。你创建了一个好的基准数据集,下一个模型为获胜而对其进行优化,获得炒作,然后你需创建另一“公平”的基准……它增加了价值,直到下一个模型对其进行优化,依此类推。人类的最后考试只有在下一个模型发布之前才是它所说的那样。

即当LLM在当前基准自信生成正确答案时,若其应用场景也是复杂度相似的现实数据,那将很棒。另一方面,当LLM在较新基准(或其应用领域)失败时,通常是因它对错误答案过于自信。这是因为新的基准数据具有它在训练时不知道的复杂性。

该循环需要停止,我们需要更好、更通用的评估机制和信息丰富的指标,而不是每隔几周就依赖新基准。(其他地方提到过这一点。)

7.2 复现DeepSeek R1的结果

我们都密切关注Huggingface的openR1,因为开源社区正在尝试复现这些结果。因为复现结果

需要条件

  1. GPU:2048个,不是很大数字,就像每次训练运行550万美元并不是超大数目。但你的公司应该不行
  2. 训练代码。DeepSeek没有开源他们的代码
  3. 训练数据——可能是最大缺口

DeepSeek可能不会发布他们的整个训练数据集,就像OpenAI或Anthropic也不会发布他们的数据集。据我们所知,DeepSeek还没发布用于长链思维训练的数据样本。因此,勇敢的开源社区已开始创建数据集。OpenThoughts就是一例。

参考:

本文已收录在Github关注我,紧跟本系列专栏文章,咱们下篇再续!

  • 🚀 魔都架构师 | 全网30W+技术追随者
  • 🔧 大厂分布式系统/数据中台实战专家
  • 🏆 主导交易系统亿级流量调优 & 车联网平台架构
  • 🧠 AIGC应用开发先行者 | 区块链落地实践者
  • 🌍 以技术驱动创新,我们的征途是改变世界!
  • 👉 实战干货:编程严选网
相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
目录
相关文章
|
9月前
|
机器学习/深度学习 测试技术 知识图谱
DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning论文解读
DeepSeek团队推出了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero通过大规模强化学习训练,展示了卓越的推理能力,但存在可读性和语言混合问题。为此,团队引入多阶段训练和冷启动数据,推出性能与OpenAI-o1-1217相当的DeepSeek-R1,并开源了多个密集模型。实验表明,DeepSeek-R1在多项任务上表现出色,尤其在编码任务上超越多数模型。未来研究将聚焦提升通用能力和优化提示工程等方向。
658 16
|
9月前
|
人工智能 运维 监控
从大规模恶意攻击 DeepSeek 事件看 AI 创新隐忧:安全可观测体系建设刻不容缓
在近来发生的 DeepSeek 遭遇的安全事件中,我们可以看到当前人工智能行业在网络安全方面的脆弱性,同时也为业界敲响了警钟。唯有通过全行业的协同努力,加强整体、完善的网络安全可观测建设,才能为 AI 技术的创新和发展构建一个安全而稳固的环境。我们期盼并相信,在攻克这些网络安全难题之后,AI 创新将迎来更加安全、灿烂的未来。
602 85
|
9月前
|
人工智能 搜索推荐 Docker
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
DeepSeek R1 + LobeChat + Ollama:快速本地部署模型,创建个性化 AI 助手
6109 119
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
|
9月前
|
机器学习/深度学习 人工智能 缓存
探秘 DeepSeek:那些你必须了解的事
DeepSeek是一家由中国幻方量化支持的创新型AI公司,专注于开发高性能、低成本的大语言模型。其独特的技术路径打破了参数规模、能耗成本和认知可靠性之间的“三元悖论”,实现了在单张显卡上运行170亿参数模型的突破。DeepSeek通过开源策略和高性价比模型(如DeepSeek-R1),大幅降低了AI应用门槛,推动了全球开发者社区的发展。其应用场景广泛覆盖教育、医疗、金融等领域,显著提升了工作效率和服务质量。DeepSeek的成功不仅在于技术创新,更在于其开放合作的理念,正引领AI行业的新变革。
1473 9
探秘 DeepSeek:那些你必须了解的事
|
9月前
|
人工智能 自然语言处理 机器人
一键部署开源DeepSeek并集成到钉钉
DeepSeek发布了两款先进AI模型V3和R1,分别适用于对话AI、内容生成及推理任务。由于官方API流量限制,阿里云推出了私有化部署方案,无需编写代码即可完成部署,并通过计算巢AppFlow集成到钉钉等渠道。用户可独享资源,避免服务不可用问题。部署步骤包括选择机器资源、配置安全组、创建应用与连接流,最终发布应用版本,实现稳定高效的AI服务。
763 4
一键部署开源DeepSeek并集成到钉钉
|
9月前
|
机器学习/深度学习 人工智能 开发者
DeepSeek服务器繁忙?拒绝稍后再试!基于阿里云PAI实现0代码一键部署DeepSeek-V3和DeepSeek-R1大模型
阿里云PAI平台支持零代码一键部署DeepSeek-V3和DeepSeek-R1大模型,用户可轻松实现从训练到部署再到推理的全流程。通过PAI Model Gallery,开发者只需简单几步即可完成模型部署,享受高效便捷的AI开发体验。具体步骤包括开通PAI服务、进入控制台选择模型、一键部署并获取调用信息。整个过程无需编写代码,极大简化了模型应用的门槛。
469 7
|
10月前
|
Linux iOS开发 MacOS
deepseek部署的详细步骤和方法,基于Ollama获取顶级推理能力!
DeepSeek基于Ollama部署教程,助你免费获取顶级推理能力。首先访问ollama.com下载并安装适用于macOS、Linux或Windows的Ollama版本。运行Ollama后,在官网搜索“deepseek”,选择适合你电脑配置的模型大小(如1.5b、7b等)。通过终端命令(如ollama run deepseek-r1:1.5b)启动模型,等待下载完成即可开始使用。退出模型时输入/bye。详细步骤如下图所示,轻松打造你的最强大脑。
14600 86
|
11月前
|
数据采集 前端开发 物联网
【项目实战】通过LLaMaFactory+Qwen2-VL-2B微调一个多模态医疗大模型
本文介绍了一个基于多模态大模型的医疗图像诊断项目。项目旨在通过训练一个医疗领域的多模态大模型,提高医生处理医学图像的效率,辅助诊断和治疗。作者以家中老人的脑部CT为例,展示了如何利用MedTrinity-25M数据集训练模型,经过数据准备、环境搭建、模型训练及微调、最终验证等步骤,成功使模型能够识别CT图像并给出具体的诊断意见,与专业医生的诊断结果高度吻合。
21075 162
【项目实战】通过LLaMaFactory+Qwen2-VL-2B微调一个多模态医疗大模型
|
9月前
|
人工智能 开发者
3步,0代码!一键部署DeepSeek-V3、DeepSeek-R1
阿里云PAI Model Gallery支持一键部署DeepSeek-V3、DeepSeek-R1模型,用户可在平台上零代码实现从训练到部署再到推理的全过程,简化开发流程。通过登录PAI控制台,选择Model Gallery,找到并部署所需模型,如“DeepSeek-R1-Distill-Qwen-7B”,享受高效便捷的AI应用体验。部署成功后可获取调用信息,快速集成到业务中。
571 13
|
移动开发 Java API
大疆无人机对接
本文介绍了大疆无人机对接第三方云平台的方案,包括设备对接和CloudAPI对接两种方式,重点讨论了CloudAPI对接。CloudAPI对接方案通过DJI Pilot 2或大疆机场将无人机与第三方云平台连接,实现低门槛接入,无需重复开发APP。方案优势在于让开发者更专注于业务开发,而非无人机功能适配。文章详细阐述了对接流程,包括环境准备、申请APPKey、对接流程、直播功能及获取无人机实时数据等内容,并提供了丰富的接口说明和技术支持资源。
7429 4
大疆无人机对接

热门文章

最新文章