Torch-npu报错定位技巧

简介: torch_npu的使用定位思路

1,训练功能问题定位思路

训练功能问题定位思路

Torch-npu错误码

CANN错误码

2,精度问题定位思路

精度问题定位思路

3,未知错误定位技巧

3.1 通过torch.npu.synchronize定位

案例:训练网络过程中出现流同步报错,明显不是python报错行。

解决方案:使用torch.npu.synchronize()排查报错位置。

第一步:首先增加环境变量:export TASK_QUEUE_ENABLE=0

第二步:在77行代码前每几行就加 torch.npu.synchronize(),再执行

有两种可能:

1、代码挂在新增的torch.npu.synchronize()

2、代码没有挂在新增的torch.npu.synchronize()

如果是第一种,则说明真实报错点在新增的torch.npu.synchronize()之前

如果是第二种,则说明真实报错点在新增的torch.npu.synchronize()之后

第三步:不停地打torch.npu.synchronize(),直到找打这一行:它前面的torch.npu.synchronize()没有报错,它后面的torch.npu.synchronize()报错了。

第四步:构造torch.gather的单算子用例,成功复现报错:

3.2 通过msprof定位单算子问题

案例:训练网络过程中发现有算子报错,但不知道是哪个算子:

定位方案:使用msprof找到报错api。

第一步:脚本内设置callstack开关和 e2e profiling,

第二步:运行脚本,msprof数据会以PROF_XXX形式落盘到profiler_result_path

第三步:解析PROF_XXX目录

第四步:将timeline目录中的msprof.json拖入chrome://tracing/

第五步:从profiling timeline的末端观察报错的算子

第六步:torch.save输入输出后进行单算子问题复现,提供device日志给研发确认(提交issue、发帖)

第七步:研发确认,输入存在inf

3.3 编译debug版本调试

案例:发生coreDump或者Segment fault后,使用gdb查看堆栈,存在“??”符号:

第一步:编译debug版本的包:DEBUG=1 bash ci/build.sh --python=3.8

编完DEBUG,如果大小明显增加,如9M增加到200+M,说明DEBUG选项生效;

第二步:执行 gdb python,进入gdb,设置break,比如我们要debug GetDescForSerialization函数,就输入break GetDescForSerialization,选y,也可以直接break {文件}:{行数}。然后run脚本,例如此处我们的python脚本为tmp.py,就输入run tmp.py

第三步:gdb会一路执行到break的点

相较于release模式,debug模式下函数入参会显示为入参名字,可以直接print 出来。我们打印下要debug的对象,如 p desc,可以看到 desc.base_sizes_的内部成员的变量没有初始化赋值,主要是由于fake tensor没有storage但走到了这个流程导致的,我们直接添加storage是否为空的判断即可通过用例。

3.4 更换so实现debug功能

案例:机器不支持编译debug版本,但是其他人有编译的so。

解决方案:拷贝被人的so,替换自己torch-npu安装目录下的so

第一步:假如torch_npu安装目录为/root/miniforge-pypy3/envs/cbn/lib/python3.8/site-packages/torch_npu

打开dbg文件夹:

第二步:如果调用栈是libtorch_npu.so内的函数为问号,则将libtorch_npu.so.debug拷贝到/root/miniforge-pypy3/envs/cbn/lib/python3.8/site-packages/torch_npu/lib

注意:一定要保证debug文件和安装的torch_npu包是同一版本

3.5 python segment fault定位到行的方法

解决方案:用 python -X faulthandler xx.py

目录
相关文章
|
12月前
|
缓存 并行计算 PyTorch
PyTorch CUDA内存管理优化:深度理解GPU资源分配与缓存机制
本文深入探讨了PyTorch中GPU内存管理的核心机制,特别是CUDA缓存分配器的作用与优化策略。文章分析了常见的“CUDA out of memory”问题及其成因,并通过实际案例(如Llama 1B模型训练)展示了内存分配模式。PyTorch的缓存分配器通过内存池化、延迟释放和碎片化优化等技术,显著提升了内存使用效率,减少了系统调用开销。此外,文章还介绍了高级优化方法,包括混合精度训练、梯度检查点技术及自定义内存分配器配置。这些策略有助于开发者在有限硬件资源下实现更高性能的深度学习模型训练与推理。
2147 0
|
10月前
|
人工智能 数据可视化 物联网
工业4.0数字孪生新引擎:星图云开发者平台全景评测
在“中国制造2025”战略推动下,工业互联网平台迎来爆发式增长,但也面临数据孤岛、分析能力不足等技术瓶颈。中科星图推出的“星图云开发者平台”通过低代码开发、多源数据融合和智能分析等创新技术,解决了工业数字化转型中的关键问题。该平台不仅支持三维可视化渲染和遥感数据分析,还兼容多种主流GIS标准协议,实现空天地一体化数据融合。其丰富的行业模板覆盖能源、园区、水务等领域,大幅降低开发门槛。评测显示,相比传统低代码平台,星图云在3D建模、GIS支持和IoT设备接入等方面表现突出,为工业数字孪生提供了全面解决方案,助力智能化升级与跨行业应用拓展。
|
12月前
|
缓存 PyTorch 算法框架/工具
AI Infra之模型显存管理分析
本文围绕某线上客户部署DeepSeek-R1满血版模型时进行多次压测后,发现显存占用一直上升,从未下降的现象,记录了排查过程。
1225 41
AI Infra之模型显存管理分析
|
API 异构计算 并行计算
PyTorch 2.2 中文官方教程(九)(4)
PyTorch 2.2 中文官方教程(九)
331 1
PyTorch 2.2 中文官方教程(九)(4)
|
PyTorch 编译器 算法框架/工具
NPU上如何使能pytorch图模式
本文介绍了PyTorch的`torch.compile`技术和TorchAir的相关内容。`torch.compile`通过将动态图转换为静态图并结合JIT编译,提升模型推理和训练效率。示例代码展示了如何使用`torch.compile`优化模型。TorchAir是昇腾为PyTorch提供的图模式扩展库,支持在昇腾设备上进行高效训练和推理。它基于Dynamo特性,将计算图转换为Ascend IR,并通过图引擎优化执行。文章还提供了TorchAir的使用示例及功能配置方法。
|
8月前
|
监控 搜索推荐 API
用淘宝 API 实现天猫店铺商品详情页智能优化
在竞争激烈的电商环境中,商品详情页对转化率至关重要。本文介绍如何利用淘宝开放平台API,通过数据驱动实现智能优化,提升用户体验与销售业绩。内容涵盖API接入、数据收集、智能分析、优化实施及效果评估五个阶段,结合实际案例与代码示例,帮助开发者从零开始构建高效优化方案,实测转化率可提升10%-20%。
324 0
|
Ubuntu Linux
Linux系统管理:服务器时间与网络时间同步技巧。
以上就是在Linux服务器上设置时间同步的方式。然而,要正确运用这些知识,需要理解其背后的工作原理:服务器根据网络中的其他机器的时间进行校对,逐步地精确自己的系统时间,就像一只犹豫不决的啮齿动物,通过观察其他啮齿动物的行为,逐渐确定自己的行为逻辑,既简单,又有趣。最后希望这个过程既能给你带来乐趣,也能提高你作为系统管理员的专业素养。
2069 20
|
索引 Python
|
存储 SQL 分布式计算
大数据-125 - Flink State 02篇 状态原理和原理剖析:广播状态
大数据-125 - Flink State 02篇 状态原理和原理剖析:广播状态
252 0