飞桨x昇腾生态适配方案:03_模型训练迁移

简介: 本案例以PaddleOCRv4模型为例,详细介绍了将模型迁移到NPU的完整流程。迁移过程中需确保模型功能在新硬件上无误,重点关注偶发性错误及长时间运行时可能出现的问题,并通过日志辅助定位问题。文档涵盖环境搭建、数据集准备、模型配置、训练启动及常见问题排查等内容。例如,通过设置环境变量排查缺失算子,处理Paddle版本兼容性问题,以及解决进程残留等。适合希望将OCR模型部署到NPU的开发者参考。

本次案例以PaddleOCRv4的模型为例,介绍将模型迁移到NPU上的流程。
迁移过程要保证原模型的功能在新的硬件上不会出现错误,可以借助各种日志辅助定位,此处尤其需要注意的是偶发性错误与长跑时才会出现的错误。

安装PaddleOCR套件

# 下载 PaddleOCR 套件源码
git clone https://github.com/PaddlePaddle/PaddleOCR
# 进入 PaddleOCR 源码目录
cd PaddleOCR
# 安装 Python 依赖库
pip install -r requirements.txt
# 编译安装 PaddleOCR
python setup.py install
AI 代码解读

准备数据集

PaddleOCR 支持两种数据格式:

  • ‘lmdb’用于训练以lmdb格式存储的数据集(LMDBDataSet);
  • ‘通用数据’用于训练以文本文件存储的数据集(SimpleDataSet);
    下面以通用数据集为例,介绍如何准备数据集。

    自定义数据集

    自定义数据集情景较少,若需使用自定义数据集,请参考:自定义数据集

    官方数据集下载

    若本地没有数据集,可以在官网下载 [ICDAR2015]数据,用于快速验证。数据集下载地址:官方数据集

    模型配置文件说明

    以 PP-OCRv4_server_rec_ic15_data.yaml 为例(文件名后缀.yml和yaml均可):
Global:
# 识别空格
  use_space_char: True
Optimizer:
  # 添加学习率衰减策略
  lr:
    name: Cosine
    learning_rate: 0.001
Train:
  dataset:
    # 数据集格式,支持LMDBDataSet以及SimpleDataSet
    name: SimpleDataSet
    # 数据集路径
    data_dir: ./train_data/
    # 训练集标签文件
    label_file_list: ["./train_data/train_list.txt"]
    transforms:
           - RecResizeImg:
          # 修改 image_shape 以适应长文本
          image_shape: [3, 48, 320]
       loader:
      # 单卡训练的batch_size
    batch_size_per_card: 256
Eval:
  dataset:
    # 数据集格式,支持LMDBDataSet以及SimpleDataSet
    name: SimpleDataSet
    # 数据集路径
    data_dir: ./train_data
    # 验证集标签文件
    label_file_list: ["./train_data/val_list.txt"]
    transforms:
            - RecResizeImg:
          # 修改 image_shape 以适应长文本
          image_shape: [3, 48, 320]
       loader:
    # 单卡验证的batch_size
    batch_size_per_card: 256
AI 代码解读

注意:预测/评估时的配置文件请务必与训练一致。

启动训练

单卡训练

单卡训练训练周期长,不推荐,可通过环境变量ASCEND_RT_VISIBLE_DEVICES 来指定卡号:

export ASCEND_RT_VISIBLE_DEVICES=7
AI 代码解读

启动训练:

python tools/train.py -c PP-OCRv4_server_rec_ic15_data.yaml -o Global.use_gpu=False Global.use_npu=True
AI 代码解读

多卡训练

通过 --gpus 或者 --devices 参数指定卡号

python -m paddle.distributed.launch --devices 0,1,2,3,4,5,6,7
tools/train.py -c PP-OCRv4_server_rec_ic15_data.yaml -o Global.use_gpu=False Global.use_npu=True
AI 代码解读

参数说明:
-c:指定训练配置文件路径(如config/rec/rec_icdar15_train.yml)
-o:覆盖配置文件中的参数(如预训练模型路径、输出目录等)
-m:paddle.distributed.launch:调用PaddlePaddle分布式训练功能

训练日志

正常启动训练后,会看到以下log输出:
01_训练日志.png

log 中字段信息含义:
epoch:当前迭代轮次
iter:当前迭代次数
lr:当前学习率
loss:当前损失值
acc:当前batch的准确率
norm_edit_dis:当前 batch 的编辑距离
samples:当前 batch 内的样本数
ips:每秒处理图片的数量

常见问题

Paddle版本老旧造成算子报错

PaddleCustomDevice算子适配代码更新后,adam算子参数amsgrad不匹配,报错如下:
02_Paddle版本老旧造成算子报错.png

之后在算子适配代码里面设置amsgrad = false,依旧报错:
03_设置amsgrad为false后依旧报错.png

定位到adam算子依旧有问题,这是由于paddle框架与paddlecustomdeviece的算子入参不一致导致的。此处可以通过将adam算子放入黑名单的方式来规避报错:

export CUSTOM_DEVICE_BLACK_LIST="adam,adam_"
AI 代码解读

后续下载最新的paddlepaddle日构建包并安装后,发现不用拉黑算子,问题解决。

进程残留

04_进程残留.png

这是进程主动调用了abort()触发的强制终止信号,意味着代码中存在不可恢复的错误(例如内存越界、空指针访问等),PID 117360指向崩溃的进程编号,可通过ps -ef | grep 117360关联具体应用模块,并杀死相关的残余进程:

pkill -9 -f "python"
AI 代码解读

排查缺失算子

当前并非所有的飞桨算子都在NPU上有对应的实现,对NPU上缺失的算子飞桨框架会自动将其异构到CPU上执行,排查缺失算子的方法如下:

  • 通过环境变量设置输出日志级别
export GLOG_v=3
AI 代码解读
  • 启动模型训练
python tools/train.py -c configs/rec/PP-OCRv4/ch_PP-OCRv4_rec.yml > ocr.log 2>&1
# grep日志的loss信息,保证并至少完成一次iter/step 的前向与反向
grep Loss ocr.log
AI 代码解读
  • 搜索缺失算子
cat ocr.log | grep -a “fallingback to CPU” |cut -d “ ” -f6 >ocr_tmp.log
sort -u ocr_tmp.log > ocr_missing_oplist.log
AI 代码解读

算子缺失后续

缺失算子一般分两种情况:

  • 一种是NPU已支持(即CANN包中有),但是飞桨侧未适配(可以在昇腾社区aclnn-API查找CANN包内是否有相应算子);
  • 另一种是在NPU中不支持的算子。

第一种情况可参考aclnn算子适配章节;第二种情况则需要先在CANN侧完成算子开发(ascendC算子)再适配。

目录
打赏
0
0
0
0
2
分享
相关文章
飞桨x昇腾生态适配方案:05_算子适配流程
本内容主要介绍Paddle针对非CPU和Nvidia GPU硬件(如NPU)的适配流程与方法。适配代码存于PaddleCustomDevice仓库,路径为`PaddleCustomDevice/backends/npu`,包含kernels(算子适配)和tests(单元测试)两个核心目录。适配流程分为算子注册、适配函数入参与主体实现三步,重点对齐Paddle与CANN算子参数。
99 0
|
2月前
|
飞桨x昇腾生态适配方案:09_Paddle转ONNX
本节主要介绍如何将 PP-OCRv4 模型转化为 ONNX 模型,包括环境准备、模型下载、训练模型转 inference 模型及最终转为 ONNX 格式的过程。首先需安装 Paddle2ONNX 和 ONNXRuntime,接着下载并解压训练模型。通过 `export_model.py` 脚本将训练模型转化为 inference 模型,生成包含结构和参数的文件。最后使用 Paddle2ONNX 工具完成到 ONNX 格式的转换,并可选地使用 onnxslim 进行模型优化。各步骤均提供详细命令与参数说明,便于实际操作与部署。
144 9
飞桨x昇腾生态适配方案:01_基础环境准备
本指南详细介绍在ARM环境中准备CANN环境、安装Paddle深度学习框架及PaddleCustomDevice的过程。首先下载并加载CANN镜像,启动Docker容器;接着通过日构建包或源码编译安装PaddlePaddle和PaddleCustomDevice;可选更新CANN版本时需注意环境变量配置与路径设置。最后提供基础功能检查方法,包括硬件后端、版本验证及框架健康检查,确保环境搭建成功。
170 0
KeyError: “No object named ‘BSRN‘ found in ‘arch‘ registry!“
KeyError: “No object named ‘BSRN‘ found in ‘arch‘ registry!“
362 0
Linux 在线/离线安装 NFS 服务及使用
-m 表示指定文件所在的文件系统或者块设备(处于 mount 状态)。所有访问该文件系统的进程都被列出。如上所示,有两个进程占用了,将其kill掉,再重新取消挂载。
3246 0
Linux 在线/离线安装 NFS 服务及使用
飞桨x昇腾生态适配方案:10_ONNX转OM
本章节主要介绍如何将ONNX模型转化为昇腾AI处理器支持的OM模型,并进行离线推理。通过昇腾张量编译器(ATC),可实现静态OM、动态BatchSize、动态分辨率、动态维度及动态shape等多种模型转换。文中详细说明了ATC工具的使用方法、参数配置、命令格式以及常见问题解决方法,同时提供了具体示例和可视化工具辅助输入参数确认,帮助用户高效完成模型转换与部署。
292 0
飞桨x昇腾生态适配方案:00_整体方案介绍
本文详细介绍PaddlePaddle与NPU的适配工作,涵盖训练与推理支持、性能优化及离线推理方案。PaddleCustomDevice作为适配层,支持主流模型(详见飞桨-昇腾模型列表),多数性能媲美V100,部分调优模型接近0.8*A800。硬件适配主要针对A2芯片,A1兼容但310系列建议离线推理。提供常用模型仓链接及整体方案导览,包括环境准备、算子适配、性能调优和Paddle转ONNX/OM等内容。
132 0
如何配置Vite以确保最佳的Tree Shaking效果?
如何配置Vite以确保最佳的Tree Shaking效果?
207 56
|
2月前
|
飞桨x昇腾生态适配方案:13_API离线推理
ais_bench 提供了基于昇腾硬件的 Python API,用于离线模型(.om模型)推理。支持静态与动态API场景,如单个或多个OM模型推理。通过 `InferSession` 类加载模型并执行推理,可灵活处理输入输出形状转换。示例代码涵盖图片读取、形状调整、多模型串联推理及资源释放等操作,满足多样化推理需求。
168 26
飞桨x昇腾生态适配方案:12_动态OM推理
本文介绍了基于Ascend AI平台的OM模型动态推理方法,包括动态BatchSize、动态分辨率、动态维度及动态Shape四种场景,支持固定模式与自动设置模式。通过`ais_bench`工具实现推理,提供示例命令及输出结果说明,并解决常见问题(如环境变量未设置、输入与模型不匹配等)。此外,还提供了API推理指南及参考链接,帮助用户深入了解ONNX离线推理流程、性能优化案例及工具使用方法。
108 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问