sam模型迁移昇腾训练loss不收敛问题的解决办法

简介: 在将SAM模型迁移到昇腾平台时,遇到了精度问题。具体表现为NPU训练的loss图从一开始就未收敛,而GPU则正常收敛。通过使用Ascend开源仓的msprobe工具进行精度对比,发现NPU丢失了image_embedding的梯度,原因在于torch_npu版本与PyTorch不匹配,导致`repeat_interleave_backward_tensor`函数调用失败。最终通过选择与PyTorch配套的torch_npu版本解决了问题,loss图恢复正常。

一、问题描述

1.在进行sam模型迁移到昇腾的时候存在精度问题,模型链接:

https://github.com/facebookresearch/segment-anything

2 .两台机器上训练loss图对比,发现从一开始训练的时候就出现了差别,从图中对比看出来npu第一步就开始没有向下收敛,而gpu是向下收敛。

image.png

二、问题分析过程

1.准备dump精度对比看看区别,使用Ascend开源仓的msprobe工具进行精度对比

debug/accuracy_tools/msprobe/docs/01.installation.md · Ascend/mstt - Gitee.com

工具安装命令:

pip install mindstudio-probe

2.然后在训练脚本部分加代码,按照示例添加代码

使用示例可参见Ascend开源仓的PyTorch 场景的精度数据采集示例代码 2.1 快速上手2.2 采集完整的前反向数据

3.添加start函数

功能说明:启动精度数据采集,在模型初始化之后的位置添加,需要与 stop 函数一起添加在 for 循环内。

debugger.start(model=None)

model:指定具体的torch.nn.Module,默认未配置,level 配置为"L0"或"mix"时,必须在该接口或 PrecisionDebugger 接口中配置该参数。 本接口中的 model 比 PrecisionDebugger 中 model 参数优先级更高,会覆盖 PrecisionDebugger 中的 model 参数。

4.添加stop函数

功能说明:停止精度数据采集,在 start 函数之后的任意位置添加,若需要 dump 反向数据,则需要添加在反向计算代码(如,loss.backward)之后。

debugger.stop()
from msprobe.pytorch import PrecisionDebugge
debugger = PrecisionDebugger(config_path='./config.json')
...
debugger.start() # 一般在训练循环开头启动工具
... # 循环体
debugger.stop() # 一般在训练循环末尾结束工具
debugger.step() # 在训练循环的最后需要重置工具,非循环场景不需要

这里的config.json也可以设置很多种类型,这里选用tensor模式和mix级。

{
    "task": "tensor",
    "dump_path": "/home/data_dump",
    "rank": [],
    "step": [],
    "level": "mix",
    "tensor": {
        "scope": [],
        "list":[],
        "data_mode": ["all"]
    }
}

5.直接运行训练脚本,在数据dump下来之后 跟gpu的精度进行对比。


图 3 npu和gpu精度的对比


npu在这里丢了image_embedding的梯度,因为该模型用到了Reg_op(RepeatInterleaveGrad)这个算子,接下来分析cann包是否有这个算子 发现是有的 但是通过进入python后调用torch_npu.repeat_interleave_backward_tensor这个函数,发现调用失败。



调用失败显示 :AttributeError: module 'torch_npu' has no attribute 'repeat_interleave_backward_tensor'

6.查看torch_npu版本,发现是2.1post3和pytorch2.1版本不配套。

三、解决方法

通过查看昇腾torch_npu的版本与pytorch的配套表,选择对应的torch_npu版本:https://gitee.com/ascend/pytorch

选用配套版本后,函数调用成功,loss图也正常。

相关文章
|
人工智能 算法 PyTorch
TorchAcc:基于 TorchXLA 的分布式训练框架
阿里云研究员、阿里云人工智能平台 PAI 技术负责人--林伟在GTC 2024 大会 China AI Day 线上中文演讲专场上介绍了TorchAcc,这是一个基于 PyTorch/XLA 的大模型分布式训练框架。
|
数据库
什么是数据库悲观锁和乐观锁
什么是数据库悲观锁和乐观锁
273 0
|
测试技术 AI芯片
服务化参数调优实战
本文介绍了服务化性能调优的全流程,以Llama3-8B模型为例。首先需完成MindIE环境安装、下载模型权重与测试数据集。接着通过计算npuMemSize和maxBatchSize,maxPrefillBatchSize(272)与maxPrefillTokens,并更新配置进行性能测试。结果显示,参数调优后吞吐量提升18%。此方法为大模型性能优化提供了实用指导。
|
7月前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本、点、框等提示进行图像与视频分割的统一基础模型,突破传统限制,实现开放词汇概念的精准识别与跟踪,涵盖超400万独特概念,推动视觉分割新发展。
2937 6
|
8月前
|
文字识别 自然语言处理 数据处理
《大模型赋能文化遗产数字化:古籍修复与知识挖掘的技术实践》
本文记录大模型赋能文化遗产数字化的实践,针对古籍异体字识别难、残缺文本补全不准、隐性知识难挖掘、多模态数据割裂、中小机构部署难、知识难更新等痛点,提出对应方案:搭建古籍文字与语境知识库提升识别理解率,以多源史料关联与历史逻辑约束实现文本精准补全,构建多层级框架挖掘隐性知识,设计多模态语义对齐整合多元信息,通过轻量化优化与混合部署降低使用门槛,建立动态机制保障知识迭代。优化后多项关键指标显著提升,为古籍数字化提供有效路径。
552 9
|
4月前
|
人工智能 算法 机器人
OpenClaw爆红抢谁饭碗?一句话执行任务重构App分发范式
OpenClaw 凭借“一句话执行任务”红遍硅谷。本文深度解析 AI 代理环境下 App 入口蒸发难题,探讨开发者如何利用 App智能传参安装 与 参数还原算法 实现 一键拉起 与 免填邀请码,在 AGI 时代重构 全渠道归因 体系。
|
4月前
|
人工智能 自然语言处理 Shell
保姆级教程:在OpenClaw (Clawdbot/Moltbot)中 配置阿里云百炼API,成功部署一篇文章就够了
本教程详解如何在OpenClaw(原Moltbot/Clawdbot)中配置阿里云百炼API,支持Qwen3-Max-Thinking等大模型。涵盖安装、API Key获取、环境变量设置、JSON配置及验证全流程,新客首月仅0.3元/天,一键部署即用。(240字)
560 1
|
6月前
|
人工智能 自然语言处理 Cloud Native
阿里云无影Agent 开发套件AgentBay是什么?
阿里云无影Agent开发套件AgentBay是面向AI Agent的云原生自动化平台,支持自然语言驱动任务调度,覆盖浏览器、桌面、代码、移动端四大场景。集成沙箱、算力调度与安全能力,三行代码实现弹性并发,内置ToolUseAgent支持大模型指令执行,保障数据隔离与安全。
386 5
|
PyTorch 编译器 算法框架/工具
NPU上如何使能pytorch图模式
本文介绍了PyTorch的`torch.compile`技术和TorchAir的相关内容。`torch.compile`通过将动态图转换为静态图并结合JIT编译,提升模型推理和训练效率。示例代码展示了如何使用`torch.compile`优化模型。TorchAir是昇腾为PyTorch提供的图模式扩展库,支持在昇腾设备上进行高效训练和推理。它基于Dynamo特性,将计算图转换为Ascend IR,并通过图引擎优化执行。文章还提供了TorchAir的使用示例及功能配置方法。
|
存储 算法 Linux
【Linux系统编程】Linux 文件系统探究:深入理解 struct dirent、DIR 和 struct stat结构
【Linux系统编程】Linux 文件系统探究:深入理解 struct dirent、DIR 和 struct stat结构
1080 0