备案控制台

开发者社区开发与运维文章正文

基于Torch，测Qwen 3B训练的精度对比。

2025-04-18 104

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 基于Torch，测Qwen 3B训练的精度对比。

基于Torch，测Qwen 3B训练的精度对比。

排查所有的torch.ops，具体会定位到tensor idx

使用工具：

https://github.com/hpcaitech/ColossalAI/blob/3f4818c17d236915f453236b0d4114e26ca9f5e6/applications/ColossalChat/coati/utils/compare_tool.py

前提：bf16下，设置atol=0.001, rtol=0.001，单机8卡做Qwen 2.5训练。

1.现象：NPU vs CPU部分算子精度超过atol， rtol

2.排查工作:可以定位到出现误差layer的具体ops

3.堵点：客户测到的误差大约在0.03+，这个现象是否正常

比如Qwen2MLP：

...... input ........

0: Tensor ,

1: Tensor ,

...... output ........

Tensor

...... error idx ........

Element at index (0, 835, 4909) is not close:0.34765625(npu:5) vs 0.349609375(cpu)

Element at index (0, 841, 5094) is not close:0.33203125(npu:5) vs 0.330078125(cpu)

Element at index (0, 846, 5370) is not close:-0.421875(npu:5) vs -0.423828125(cpu)

Element at index (0, 858, 707) is not close:-0.328125(npu:5) vs -0.326171875(cpu)

Element at index (0, 869, 1463) is not close:-0.6171875(npu:5) vs -0.62109375(cpu)

Element at index (0, 875, 4798) is not close:-0.76953125(npu:5) vs -0.765625(cpu)

Element at index (0, 897, 4008) is not close:-0.392578125(npu:5) vs -0.390625(cpu)

问题答复：

正常现象，它把npu的输入直接转cpu然后计算。这个误差很有可能是转换的时候，内存排列contiguous产生的影响，所以会超过千分之一。

文章标签：

AI芯片

C++

关键词：

通义大模型训练

游客ezsjhr25hz4n2

目录

相关文章

蚂蚁数据智能技术

|

3月前

|

负载均衡并行计算异构计算

大模型训练推理优化(5)： FlexLink —— NVLink 带宽无损提升27%

本期我们将介绍蚂蚁集团ASystem团队在大模型通信优化上的新工作FlexLink，旨在通过动态聚合多路通信（NVLink，PCIe，RDMA），在H800等典型硬件上将典型通信算子如（AllReduce, All Gather）吞吐提升最高达27%，尤其适合大模型长序列推理（Prefill阶段），及训练等通信密集的带宽bound场景。方案对精度无影响。

蚂蚁数据智能技术

216 2 2

Deephub

|

3月前

|

机器学习/深度学习人工智能算法

GSPO：Qwen让大模型强化学习训练告别崩溃，解决序列级强化学习中的稳定性问题

这是7月份的一篇论文，Qwen团队提出的群组序列策略优化算法及其在大规模语言模型强化学习训练中的技术突破

Deephub

1056 0 0

GSPO：Qwen让大模型强化学习训练告别崩溃，解决序列级强化学习中的稳定性问题

阿里云大数据Al技术

|

4月前

|

机器学习/深度学习人工智能测试技术

【ICML2025】大模型后训练性能4倍提升！阿里云PAI团队研究成果ChunkFlow中选

近日，阿里云 PAI 团队、通义实验室与中国科学院大学前沿交叉科学学院合作在机器学习顶级会议 ICML 2025 上发表论文 Efficient Long Context Fine-tuning with Chunk Flow。ChunkFlow 作为阿里云在变长和超长序列数据集上高效训练解决方案，针对处理变长和超长序列数据的性能问题，提出了以 Chunk 为中心的训练机制，支撑 Qwen 全系列模型的长序列续训练和微调任务，在阿里云内部的大量的业务上带来2倍以上的端到端性能收益，大大降低了训练消耗的 GPU 卡时。

阿里云大数据Al技术

403 1 1

龙蜥社区（OpenAnolis）

|

5月前

|

人工智能并行计算持续交付

如何使用龙蜥衍生版KOS，2步实现大模型训练环境部署

大幅降低了用户开发和应用大模型的技术门槛。

龙蜥社区（OpenAnolis）

144 15 15

Deephub

|

2月前

|

机器学习/深度学习算法数据可视化

从零开始训练推理模型：GRPO+Unsloth改造Qwen实战指南

推理型大语言模型兴起，通过先思考再作答提升性能。本文介绍GRPO等强化学习算法，详解其原理并动手用Qwen2.5-3B训练推理模型，展示训练前后效果对比，揭示思维链生成的实现路径。

Deephub

377 2 2

从零开始训练推理模型：GRPO+Unsloth改造Qwen实战指南

Deephub

|

2月前

|

机器学习/深度学习算法

Proximal SFT：用PPO强化学习机制优化SFT，让大模型训练更稳定

本文介绍了一种改进的监督微调方法——Proximal Supervised Fine-Tuning (PSFT)，旨在解决传统SFT易过拟合、泛化能力差及导致“熵坍塌”的问题。受PPO强化学习算法启发，PSFT通过引入参数更新的稳定性机制，防止模型在训练中变得过于确定，从而提升探索能力与后续强化学习阶段的表现。实验表明，PSFT在数学推理、模型对齐及泛化能力方面均优于传统SFT。

Deephub

279 3 3

Proximal SFT：用PPO强化学习机制优化SFT，让大模型训练更稳定

蚂蚁数据智能技术

|

7月前

|

机器学习/深度学习人工智能自然语言处理

ICLR 2025 | EDiT：一种基于 Local SGD 策略的大模型高效分布式训练方法

蚂蚁 AI Infra 团队在深度学习最核心之一的训练框架方向上持续投入与创新，实现了提升资源利用率、加速训练、提升训练稳定性等目标。我们提出的 EDiT 方法，即为其中一项工作。

蚂蚁数据智能技术

352 3 3

阿里云开发者

|

4月前

|

机器学习/深度学习数据采集人工智能

微调之后还能做什么？大模型后训练全链路技术解析

本文探讨了后训练的重要性、方法以及最新进展。文章将包含理论分析与实际操作指南，适合希望深入了解并应用这些技术的开发者。

阿里云开发者

931 18 20

微调之后还能做什么？大模型后训练全链路技术解析

热门文章

最新文章

【大模型微调】一文掌握5种大模型微调的方法

Qwen3-VL新成员 2B、32B来啦！更适合开发者体质

百度PaddleOCR-VL多模态文档解析方案开源发布，0.9B参数问鼎SOTA

构建AI智能体：一、初识AI大模型与API调用

AI Agent的未来之争：任务规划，该由人主导还是AI自主？——阿里云RDS AI助手的最佳实践

AI Agent越用越笨？阿里云AnalyticDB「AI上下文工程」一招破解！

大模型分布式推理：张量并行与流水线并行技术

C3仓库AI代码门禁通用实践：基于Qwen3-Coder+RAG的代码评审

使用TensorRT LLM构建和运行Qwen模型

淘宝买家秀 API 深度开发：多模态内容解析与合规推荐技术拆解

大模型强化学习的熵控制：CE-GPPO、EPO与AsyPPO技术方案对比详解

当AI开始“思考”：为什么大模型的尽头是推理？

大模型分布式推理：张量并行与流水线并行技术

构建AI智能体：一、初识AI大模型与API调用

【大模型微调】一文掌握5种大模型微调的方法

从“看见”到“预见”：合合信息“多模态文本智能技术”如何引爆AI下一场革命。

AI Agent的未来之争：任务规划，该由人主导还是AI自主？——阿里云RDS AI助手的最佳实践

C3仓库AI代码门禁通用实践：基于Qwen3-Coder+RAG的代码评审

Qwen3-VL新成员 2B、32B来啦！更适合开发者体质

AI Agent越用越笨？阿里云AnalyticDB「AI上下文工程」一招破解！

相关课程

更多

阿里云大模型工程师ACA认证免费课程

阿里云百炼大模型产品实践

ADB-PG+大模型一站式AIGC解决方案

阿里云百炼，手把手教你如何构建企业大模型应用服务

云原生AI套件：一键训练大模型及部署GPU共享推理服务

【开眼界】大模型时代的个人应对策略

相关电子书

更多

OpenSearch向量检索和大模型方案

通义万相：视觉生成大模型的进化与应用

达摩院通义视觉生成大模型

相关实验场景

更多

通过GPU云服务器生成个人版对话大模型

如何快速训练大模型

如何快速体验调用通义大模型

在云上部署ChatGLM2-6B大模型（GPU版）

使用AI容器镜像部署Qwen大语言模型

下一篇

让AI单次生成4万字！WriteHERE：开源AI长文写作框架，单次生成超长文本，小说报告一键搞定！