基于Torch,测Qwen 3B训练的精度对比。

简介: 基于Torch,测Qwen 3B训练的精度对比。

基于Torch,测Qwen 3B训练的精度对比。

排查所有的torch.ops,具体会定位到tensor idx

使用工具:

https://github.com/hpcaitech/ColossalAI/blob/3f4818c17d236915f453236b0d4114e26ca9f5e6/applications/ColossalChat/coati/utils/compare_tool.py

前提 :bf16下,设置atol=0.001, rtol=0.001,单机8卡做Qwen 2.5训练。

1.现象:NPU vs CPU部分算子精度超过atol, rtol

2.排查工作:可以定位到出现误差layer的具体ops

3.堵点:客户测到的误差大约在0.03+,这个现象是否正常

比如Qwen2MLP:

...... input ........

0: Tensor ,

1: Tensor ,

...... output ........

Tensor

...... error idx ........

Element at index (0, 835, 4909) is not close:0.34765625(npu:5) vs 0.349609375(cpu)

Element at index (0, 841, 5094) is not close:0.33203125(npu:5) vs 0.330078125(cpu)

Element at index (0, 846, 5370) is not close:-0.421875(npu:5) vs -0.423828125(cpu)

Element at index (0, 858, 707) is not close:-0.328125(npu:5) vs -0.326171875(cpu)

Element at index (0, 869, 1463) is not close:-0.6171875(npu:5) vs -0.62109375(cpu)

Element at index (0, 875, 4798) is not close:-0.76953125(npu:5) vs -0.765625(cpu)

Element at index (0, 897, 4008) is not close:-0.392578125(npu:5) vs -0.390625(cpu)

问题答复:

正常现象,它把npu的输入直接转cpu然后计算。这个误差很有可能是转换的时候,内存排列contiguous产生的影响,所以会超过千分之一。

相关文章
|
3月前
|
负载均衡 并行计算 异构计算
大模型训练推理优化(5): FlexLink —— NVLink 带宽无损提升27%
本期我们将介绍蚂蚁集团ASystem团队在大模型通信优化上的新工作FlexLink,旨在通过动态聚合多路通信(NVLink,PCIe,RDMA),在H800等典型硬件上将典型通信算子如(AllReduce, All Gather)吞吐提升最高达27%,尤其适合大模型长序列推理(Prefill阶段),及训练等通信密集的带宽bound场景。方案对精度无影响。
|
3月前
|
机器学习/深度学习 人工智能 算法
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
这是7月份的一篇论文,Qwen团队提出的群组序列策略优化算法及其在大规模语言模型强化学习训练中的技术突破
1056 0
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
|
4月前
|
机器学习/深度学习 人工智能 测试技术
【ICML2025】大模型后训练性能4倍提升!阿里云PAI团队研究成果ChunkFlow中选
近日,阿里云 PAI 团队、通义实验室与中国科学院大学前沿交叉科学学院合作在机器学习顶级会议 ICML 2025 上发表论文 Efficient Long Context Fine-tuning with Chunk Flow。ChunkFlow 作为阿里云在变长和超长序列数据集上高效训练解决方案,针对处理变长和超长序列数据的性能问题,提出了以 Chunk 为中心的训练机制,支撑 Qwen 全系列模型的长序列续训练和微调任务,在阿里云内部的大量的业务上带来2倍以上的端到端性能收益,大大降低了训练消耗的 GPU 卡时。
|
5月前
|
人工智能 并行计算 持续交付
如何使用龙蜥衍生版KOS,2步实现大模型训练环境部署
大幅降低了用户开发和应用大模型的技术门槛。
|
2月前
|
机器学习/深度学习 算法 数据可视化
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
推理型大语言模型兴起,通过先思考再作答提升性能。本文介绍GRPO等强化学习算法,详解其原理并动手用Qwen2.5-3B训练推理模型,展示训练前后效果对比,揭示思维链生成的实现路径。
377 2
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
|
2月前
|
机器学习/深度学习 算法
Proximal SFT:用PPO强化学习机制优化SFT,让大模型训练更稳定
本文介绍了一种改进的监督微调方法——Proximal Supervised Fine-Tuning (PSFT),旨在解决传统SFT易过拟合、泛化能力差及导致“熵坍塌”的问题。受PPO强化学习算法启发,PSFT通过引入参数更新的稳定性机制,防止模型在训练中变得过于确定,从而提升探索能力与后续强化学习阶段的表现。实验表明,PSFT在数学推理、模型对齐及泛化能力方面均优于传统SFT。
279 3
Proximal SFT:用PPO强化学习机制优化SFT,让大模型训练更稳定
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
ICLR 2025 | EDiT:一种基于 Local SGD 策略的大模型高效分布式训练方法
蚂蚁 AI Infra 团队在深度学习最核心之一的训练框架方向上持续投入与创新,实现了提升资源利用率、加速训练、提升训练稳定性等目标。我们提出的 EDiT 方法,即为其中一项工作。
|
4月前
|
机器学习/深度学习 数据采集 人工智能
微调之后还能做什么?大模型后训练全链路技术解析
本文探讨了后训练的重要性、方法以及最新进展。文章将包含理论分析与实际操作指南,适合希望深入了解并应用这些技术的开发者。
931 18
微调之后还能做什么?大模型后训练全链路技术解析

热门文章

最新文章