智源开源FlagOS升级:首次实现DeepSeek-R1满血版多种芯片高效快速部署

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 近日,DeepSeek-R1以低训练成本实现比肩一流模型的高性能并全面开源,引发了海量部署及场景应用,推理计算需求迅猛增长。

近日,DeepSeek-R1以低训练成本实现比肩一流模型的高性能并全面开源,引发了海量部署及场景应用,推理计算需求迅猛增长。

基于面向大模型、支持多种AI芯片的开源统一软硬件技术栈FlagOS,智源研究院联合多个芯片厂商一同开发并开源了DeepSeek-R1多芯片版本,旨在推动大模型在不同芯片的适配应用,打破生态墙和算力束缚,构建多元芯片的统一技术栈和开源软硬件生态。

此次发布基于FlagOS的DeepSeek-R1多芯片版本,是业界首次通过统一开源软件栈实现DeepSeek-R1的多芯片开源版本,并同时给出了严谨的模型对齐结果,保证了开源可用、统一易用。它给用户带来以下几个重要价值。

  • 代码统一:使用同一套开源代码和底层框架,实现了不同AI芯片架构的DeepSeek-R1推理,推动生态统一、开放。
  • 效果对齐:智源秉承科学严谨的方法,发布的多芯片版本,在各个芯片服务器上,均与英伟达芯片上的DeepSeek-R1进行严格评测,保证在不同芯片架构上的DeepSeek-R1版本与原始英伟达版本效果对齐,同样优秀。该对齐评测是基于智源的FlagEval大模型评测系统,评测结果可在HuggingFace及魔搭平台查阅。
  • 开源开放:多芯片版本的源代码、各个芯片的DeepSeek-R1模型文件、各个芯片的一站式Docker运行镜像文件分别开放到Github/Gitee,Huggingface和魔搭,云厂商镜像仓库等平台,方便广大开发者用户的获取。
  • 高效易用:依托各芯片适配的基础镜像,安装 FlagOS 核心组件,其中涵盖异构并行训推框架 FlagScale 与大模型通用算子库 FlagGems。在此基础上,能够一键部署 DeepSeek - R1 模型服务和自动分布式推理调优能力,同时提供与 OpenAI 兼容的 API,极大降低使用门槛,提升部署效率。

FlagOS是由智源牵头,与多个厂商共同打造的面向多元AI芯片的统一、开源的系统软件技术栈,包括支持多种AI芯片的高效并行训推框架FlagScale、支持多种AI芯片架构的高性能算子库FlagAttention和FlagGems,以及支持多种AI芯片的统一通信库FlagCX等关键技术。FlagOS旨在包括英伟达及多种AI芯片上,都能为用户提供统一、开源开放的系统软件,支撑各种大模型在不同AI芯片上的高效易用,从而打破算力的束缚。

image.png

此次基于FlagOS研发的DeepSeek-R1多芯片版本,可一键启动FlagScale实现6700亿参数大模型跨芯片的并行推理,支持用户根据需求灵活选择算力组合,自动实现并行推理计算。

FlagScale会根据不同AI芯片的计算能力自动优化分布式并行策略,确保资源分配最优化和高效利用,提升整体部署性能。FlagScale提供统一且简单的命令执行机制,用户可以通过相同的命令在各种硬件平台上快速无缝部署服务。底层的高性能算子库FlagGems提供了25个通用算子的CUDA开源替换方案,融合算子将在下一个版本中完成替换,支持模型快速迁移至多元芯片。借助FlagScale的统一Runner机制以及与FlagGems的深度集成,用户只需在配置文件中添加环境变量即可无缝切换到FlagGems算子库进行推理。

此外,智源研究院正在加速推进更多模型和芯片的适配开源发布工作,目前已在两天内发布基于寒武纪版本的面壁智能最新、性能最佳的 MiniCPM-o 系列多模态模型——MiniCPM-o 2.6 的快速支持,基于沐曦、天数等国产芯片的版本也在陆续进行中。未来,FlagOS 将持续扩展对多种主流 AI 模型和多元芯片的兼容性,以满足更广泛的应用需求,为用户提供更加灵活高效的部署方案。

模型及相关文件访问下载

魔搭modelscope地址:

https://www.modelscope.cn/organization/FlagRelease

HuggingFace地址:

https://huggingface.co/FlagRelease

详细步骤

基于FlagOS,只需要几步,用户即可在支持的AI芯片服务器上完成环境搭建和模型部署。具体步骤可以参考我们提供的模型readme(以下链接以沐曦为例)。

https://www.modelscope.cn/models/FlagRelease/DeepSeek-R1-FlagOS-Metax-BF16

https://live.csdn.net/v/472859


5行命令完成从零开始在非Nvidia的AI芯片服务器部署DeepSeek-R1全流程

基于FlagOS研发的DeepSeek-R1多芯片版本提供了预配置芯片镜像,可绕过分布式环境搭建与芯片专属配置,实现零成本适配,大大方便了用户在不同AI芯片服务器上面部署和使用DeepSeek-R1模型。目前,首批完成了5种不同厂商的AI芯片支持,更多AI芯片支持将于近期陆续上线开源。同时,以FlagOS技术栈为基础,未来将支持更多优秀大模型在多种AI芯片的版本发布。

基于FlagOS的DeepSeek R1跨芯片模型性能在准确性上可全面对齐使用英伟达H100的模型性能。

  1. DeepSeek-R1-H100-CUDA 是基于 CUDA 在 H100上部署的基线性能,基本可以还原Deepseek R1技术报告上的数值。
  2. DeepSeek-R1-H100-FlagOS是在H100 GPU上利用FlagOS实现的模型,其性能与基线模型相匹配,证明了跨芯片部署的可行性和一致性。
  3. DeepSeek-R1-FlagOS-Cambricon-BF16是基于FlagOS在寒武纪芯片上基于FlagOS和BF16混合精度技术部署的模型,其性能成功与基线模型对齐,展示了跨芯片迁移的高性能潜力。
  4. DeepSeek-R1-FlagOS-Metax-BF16是基于FlagOS 在沐曦芯片上利用FlagOS和BF16混合精度技术部署的模型,其性能同样与基线模型相匹配,进一步验证了模型跨不同芯片平台的兼容性和稳定性。
  5. DeepSeek-R1-FlagOS-Iluvatar-INT8是基于FlagOS在天数芯片上基于FlagOS和INT8量化技术部署的模型。尽管由于量化技术的应用,性能略有下降,但仍然保持了较高的准确性。

DeepSeek-R1-H100-CUDA

DeepSeek-R1H100-FlagOS

DeepSeek-R1-FlagOS-Cambricon-BF16

DeepSeek-R1-FlagOS-Metax-BF16

DeepSeek-R1-FlagOS-Iluvatar-INT8

GSM8K (EM)

95.75

95.83

95.15

95.38

95.53

MMLU (Acc.)

85.34

85.56

85.61

85.38

82.16

CEVAL

89.00

89.60

89.38

89.23

80.31

AIME 2024 (Pass@1)

76.66

70.00

73.33

76.66

/

GPQA-Diamond (Pass@1)

70.20

71.21

73.23

71.72

/

MATH-500 pass@1

93.20

94.80

95.20

93.80

92.20

基于FlagOS的DeepSeek-R1在各芯片上的评测结果

注:1. 本评测结果由FlagEval 提供。当前版本的发布涉及到在多个芯片平台上进行性能评估,这一过程需要较长时间来完成,我们将根据评估进度,逐步更新并公布各平台的性能对齐结果。确保能够提供准确和可靠的性能数据,以满足不同硬件环境的需求。

2. 本测试仅用于验证模型迁移后与英伟达版本效果的一致性,但由于适配芯片架构与产生原参数的芯片架构存在差异,因此在同数值精度(及同量化策略)条件下各数据集的评测指标差异在1%内则视为效果一致。

FlagGems是由智源联合多家公司研发的大模型通用算子库,基于 OpenAI Triton 语言并支持多种芯片架构。凭借 Triton 语言的开放性与灵活性,FlagGems 为多种加速硬件提供了统一且高效的算子层生态接入方案。目前,FlagGems 是全球范围内基于 Triton 开发的算子覆盖最全面的通用算子库,已展现出以下特色:

  • 数量丰富:算子总数超过140个,且算子类型的广度远超同类竞品。
  • 性能优越:90%以上平均性能超越Pytorch CUDA版本。
  • 多后端支持:目前支持7种加速器后端,经过持续优化,性能加速比提升显著。
  • 创新技术:采用独特的代码生成优化及运行时优化技术,二次开发效率及运行时性能优于同类项目。

FlagGems算子库已初步验证多元芯片统一算子层的路线可行性。同时,构建了从模型应用企业、系统集成商到芯片企业全链路产业生态。未来,算子库计划进一步提升性能,支持更多模型和芯片,引领多元异构芯片统一生态的技术前沿和产业落地。

FlagScale由智源联合生态伙伴,基于开源技术共同构建的面向多芯片开源大模型框架,旨在提升计算资源利用效率,并确保模型训练与推理效果。通过提供模型开发、训练和部署等全流程关键组件,FlagScale致力于成为优化大型模型工作流程效率与效果的必备开源工具包,具备如下特色:

  • 领先的异构混训技术:首次实现不同代际与不同架构芯片之间大模型异构混合训练,提供通用的多维异构混合并行策略,支持不同厂商跨节点RDMA直连和CPU中转通信。
  • 高效的端到端训练与推理:支持智源内外10余种模型的端到端预训练与推理,涵盖稠密和稀疏模型,涉及语言与多模态领域,参数规模达千亿量级。在LLaVA-OneVision同配置下,训练效率达到DeepSpeed的1.7倍;多模态CFG推理效率达到HuggingFace的3.8~6.7倍。
  • 跨芯片自动调优能力:为用户提供开箱即用的自动调优工具,仅需通过配置即可一键获取性能最优的并行策略。这大幅降低了分布式训练与推理的部署门槛。通过自动调优,实际测试中多款芯片的性能平均提升11.3%。
  • 多芯片训练与推理适配:与厂商共建,已在8家不同芯片上完成训练与推理适配,实现算子、预训练损失、微调损失及评测效果四个层级的精度对齐。涵盖语言和多模态领域多个不同规模的模型,并成功实现非英伟达芯片上千卡的端到端完整训练。

FlagCX是智源联合生态合作伙伴,构建并开源的异构统一通信库,是填补多元算力开源软件栈的重要版图,它不仅能够实现不同芯片之间的跨节点高效通信,支持单一任务在多芯片环境下的高效异构混合训练,还能实现大规模自适应通信优化,显著降低跨芯片、跨规模、跨任务的迁移成本。FlagCX具备以下特色:

  • 标准化:功能和接口进行统一标准化,将厂商适配成本极大地减少。
  • 兼容性:兼容PyTorch等框架,兼容厂商自研通信库,兼容标准IB/RoCE网络协议等。
  • 自适应:针对不同任务负载、不同集群规模、不同厂商芯片等,将提供自动调优机制。
  • 高性能:当前已在同构芯片上实现通信的零开销分发,而在异构跨机通信达到峰值带宽90%以上。

为更好地推动异构统一通信库FlagCX的发展,加速相关标准的研制及落地应用,智源正在积极构建相关软件生态。通过产学研的协同创新,形成良性循环,加速异构统一通信库的技术推广与应用落地。

FlagEval(天秤)是智源于2023年推出的大模型评测体系及开放平台,致力于建立科学、公正、开放的评测基准、方法及工具集,旨在协助研究人员全面评估基础模型及训练算法的性能。

FlagEval已逐步推出一系列评测工具,涵盖语言大模型评测、多语言文图大模型评测及文图生成评测等多个领域,通过系统化的工具建设,平台不仅实现了对各类大语言模型和跨模态模型的广泛评测,还进一步拓展了评测场景,覆盖自然语言处理(NLP)、计算机视觉(CV)、音频处理(Audio)及多模态(Multimodal)四大领域,并支持丰富的下游任务。截至目前,FlagEval已完成对800多个国内外大模型的评测,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测,为模型性能的全面评估提供了强有力的支持。

点击链接阅读原文,即可跳转模型详情~

ModelScope 魔搭社区

目录
相关文章
|
5月前
|
机器学习/深度学习 人工智能 文件存储
Llama Nemotron:英伟达开源基于Llama架构优化的推理模型,253B参数持平DeepSeek R1!
NVIDIA推出的Llama Nemotron系列推理模型,基于Llama架构优化,包含Nano/Super/Ultra三款,在数学推理、编程和工具调用等任务中展现卓越性能。
152 5
Llama Nemotron:英伟达开源基于Llama架构优化的推理模型,253B参数持平DeepSeek R1!
|
5月前
|
机器学习/深度学习 人工智能 计算机视觉
AI图像质感还原堪比专业摄影!Miracle F1:美图WHEE全新AI图像生成模型,支持超写实与多风格生成
美图WHEE推出的Miracle F1采用扩散模型技术,通过精准语义理解和多风格生成能力,可产出具有真实光影质感的专业级图像作品。
213 5
AI图像质感还原堪比专业摄影!Miracle F1:美图WHEE全新AI图像生成模型,支持超写实与多风格生成
|
5月前
|
机器学习/深度学习 人工智能 IDE
14B小模型代码成绩紧逼O3-Mini!DeepCoder-14B-Preview:基于Deepseek-R1蒸馏优化的开源代码生成模型
DeepCoder-14B-Preview是基于Deepseek-R1蒸馏优化的140亿参数模型,通过强化学习微调在LiveCodeBench达到60.6%准确率,开源训练数据与系统优化方案。
282 3
14B小模型代码成绩紧逼O3-Mini!DeepCoder-14B-Preview:基于Deepseek-R1蒸馏优化的开源代码生成模型
|
5月前
|
人工智能 自然语言处理 测试技术
能够双向推理的LLM!Dream-7B:港大联合华为开源的扩散推理模型,能够同时考虑前后文信息
Dream-7B是由香港大学与华为诺亚方舟实验室联合研发的开源扩散大语言模型,采用独特的掩码扩散范式,在文本生成、数学推理和代码编写等任务中展现出卓越性能。
231 3
能够双向推理的LLM!Dream-7B:港大联合华为开源的扩散推理模型,能够同时考虑前后文信息
|
5月前
|
消息中间件 缓存 弹性计算
纯PHP+MySQL手搓高性能论坛系统!代码精简,拒绝臃肿
本内容分享了一套经实战验证的社交系统架构设计,支撑从1到100万用户的发展,并历经6次流量洪峰考验。架构涵盖客户端层(App、小程序、公众号)、接入层(API网关、负载均衡、CDN)、业务服务层(用户、内容、关系、消息等服务)、数据层(MySQL、Redis、MongoDB等)及运维监控层(日志、监控、告警)。核心设计包括数据库分库分表、多级缓存体系、消息队列削峰填谷、CQRS模式与热点数据动态缓存。同时提供应对流量洪峰的弹性伸缩方案及降级熔断机制,并通过Prometheus实现全链路监控。开源建议结构清晰,适合大型社交平台构建与优化。
205 11
|
5月前
|
机器学习/深度学习 存储 文字识别
Llama 4上线魔搭社区!社区推理、微调实战教程来啦!
近期,Meta推出了Llama 4系列的首批模型: Llama 4 Scout 和 Llama 4 Maverick。
433 12
|
5月前
|
人工智能 算法 安全
OpenRouter 推出百万 token 上下文 AI 模型!Quasar Alpha:提供完全免费的 API 服务,同时支持联网搜索和多模态交互
Quasar Alpha 是 OpenRouter 推出的预发布 AI 模型,具备百万级 token 上下文处理能力,在代码生成、指令遵循和低延迟响应方面表现卓越,同时支持联网搜索和多模态交互。
397 1
OpenRouter 推出百万 token 上下文 AI 模型!Quasar Alpha:提供完全免费的 API 服务,同时支持联网搜索和多模态交互
|
5月前
|
人工智能 调度 UED
这个AI能把PSD变视频!人物/场景/道具任意组合!SkyReels-A2:昆仑万维推出的可控多元素视频生成框架
SkyReels-A2是昆仑万维推出的创新视频生成框架,通过扩散模型和图像-文本联合嵌入技术,实现多元素精准组合与高质量视频输出。
235 25
这个AI能把PSD变视频!人物/场景/道具任意组合!SkyReels-A2:昆仑万维推出的可控多元素视频生成框架
|
5月前
|
机器学习/深度学习 人工智能
OmniCam:浙大联合上海交大推出多模态视频生成框架,虚拟导演打造百万级影视运镜
OmniCam是由浙江大学与上海交通大学联合研发的多模态视频生成框架,通过LLM与视频扩散模型结合实现高质量视频生成,支持文本、轨迹和图像等多种输入模态。
116 1
OmniCam:浙大联合上海交大推出多模态视频生成框架,虚拟导演打造百万级影视运镜

热门文章

最新文章