飞桨x昇腾生态适配方案:02_常用环境变量

简介: 本节介绍训练前建议设置的常用环境变量,涵盖NPU私有格式、在线编译、性能优化参数(如`aclnn_scale`和`aclnn_split`)、算子黑名单配置、NPU卡号指定、Paddle内存分配策略及日志设置等内容。通过合理配置这些变量,可有效提升训练性能并解决潜在问题。例如,关闭`FLAGS_npu_storage_format`以禁用NPU私有格式,或调整`ASCEND_MAX_OP_CACHE_SIZE`优化Kernel缓存大小。同时,CANN和Paddle的日志环境变量也提供了调试支持。

训练常用环境变量

本节介绍的环境变量建议在训练前提前设置好。

NPU私有格式

0为关闭,建议关闭:

export FLAGS_npu_storage_format=0

NPU在线编译

false为关闭,建议小模型关闭,大模型打开:

export FLAGS_npu_jit_compile=false

aclnn_scale

在大模型场景设置False性能更好,小模型场景设置True性能更好:

export FLAGS_npu_scale_aclnn=True

aclnn_split

在大模型场景设置False性能更好,小模型场景设置True性能更好:

export FLAGS_npu_split_aclnn=True

npu算子加黑名单

npu算子加黑名单跑cpu,禁用NPU算子名单,可用来暂时规避精度问题,或者确认问题算子(set_value为算子名称):

export CUSTOM_DEVICE_BLACK_LIST=“set_value”

指定NPU卡号

export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7

Paddle view机制

当前在NPU部分模型上性能较差,0为关闭,建议关闭:

export FLAGS_use_stride_kernel=0

Paddle内存分配方式

默认为最大值申请,可能在个别模型上引入内存问题,建议使用auto_growth随使用申请

export FLAGS_allocator_strategy_kernel=auto_growth

kernel缓存大小

设置kernel缓存大小,以防止模型训练后期性能衰减

export ASCEND_MAX_OP_CACHE_SIZE=5000

CANN日志环境变量

设置日志打屏

1为打屏,可开启后将日志重定向到.log文件中

export ASCEND_SLOG_PRINT_TO_STDOUT=1

设置日志等级

0为INFO级,所有的日志均输出,3为ERROR级

export ASCEND_GLOBAL_LOG_LEVEL=0

Paddle日志环境变量

Paddle的glog等级中,0为无日志,10为全开日志,一般开启到3即可

export GLOG_v=3

开启glog后重定向.log文件需要在语句最后加入 2>&1 命令,例如:

python tools/train.py -c PP-OCRv4_server_rec_ic15_data.yaml -o
Global.use_gpu=False Global.use_npu=True > ocr.log 2>&1
目录
相关文章
|
6月前
|
容器
vllm+vllm-ascend本地部署QwQ-32B
本指南介绍如何下载、安装和启动基于Ascend的vLLM模型。首先,可通过华为镜像或Hugging Face下载预训练模型;其次,安装vllm-ascend,支持通过基础镜像(如`quay.io/ascend/vllm-ascend:v0.7.3-dev`)或源码编译方式完成;最后,使用OpenAI兼容接口启动模型,例如运行`vllm serve`命令,设置模型路径、并行规模等参数。适用于大模型推理场景,需注意显存需求(如QwQ-32B需70G以上)。
2325 17
|
5月前
|
API Python
飞桨x昇腾生态适配方案:13_API离线推理
ais_bench 提供了基于昇腾硬件的 Python API,用于离线模型(.om模型)推理。支持静态与动态API场景,如单个或多个OM模型推理。通过 `InferSession` 类加载模型并执行推理,可灵活处理输入输出形状转换。示例代码涵盖图片读取、形状调整、多模型串联推理及资源释放等操作,满足多样化推理需求。
301 26
|
5月前
|
存储 算法
飞桨x昇腾生态适配方案:09_Paddle转ONNX
本节主要介绍如何将 PP-OCRv4 模型转化为 ONNX 模型,包括环境准备、模型下载、训练模型转 inference 模型及最终转为 ONNX 格式的过程。首先需安装 Paddle2ONNX 和 ONNXRuntime,接着下载并解压训练模型。通过 `export_model.py` 脚本将训练模型转化为 inference 模型,生成包含结构和参数的文件。最后使用 Paddle2ONNX 工具完成到 ONNX 格式的转换,并可选地使用 onnxslim 进行模型优化。各步骤均提供详细命令与参数说明,便于实际操作与部署。
222 9
|
存储 弹性计算 容灾
华为云从入门到实战 | 云关系数据库备份、恢复及存储容灾服务
主要介绍华为云数据库RDS的备份与恢复部署过程以及SDRS的创建部署过程。
781 0
华为云从入门到实战 | 云关系数据库备份、恢复及存储容灾服务
|
5月前
|
人工智能 测试技术 API
飞桨x昇腾生态适配方案:11_静态OM推理
昇腾AI推理工具`ais_bench`基于ACL开发,支持命令行快速推理与性能测试(吞吐率、时延等),并提供相关API。用户需下载适配环境的`aclruntime`和`ais_bench`的whl包后通过pip安装。设置环境变量后,可通过多种场景使用工具:纯推理(默认输入全0数据)、调试模式(获取详细参数与耗时信息)、文件/文件夹输入(指定Numpy文件或目录)、以及多Device并行推理。例如,BERT模型需按顺序传入三个文件夹对应其输入参数。工具输出包括吞吐率、耗时等关键指标,助力高效模型性能评估。
253 0
|
5月前
|
机器学习/深度学习 Docker 容器
飞桨x昇腾生态适配方案:01_基础环境准备
本指南详细介绍在ARM环境中准备CANN环境、安装Paddle深度学习框架及PaddleCustomDevice的过程。首先下载并加载CANN镜像,启动Docker容器;接着通过日构建包或源码编译安装PaddlePaddle和PaddleCustomDevice;可选更新CANN版本时需注意环境变量配置与路径设置。最后提供基础功能检查方法,包括硬件后端、版本验证及框架健康检查,确保环境搭建成功。
293 0
|
5月前
|
编解码 人工智能 API
飞桨x昇腾生态适配方案:12_动态OM推理
本文介绍了基于Ascend AI平台的OM模型动态推理方法,包括动态BatchSize、动态分辨率、动态维度及动态Shape四种场景,支持固定模式与自动设置模式。通过`ais_bench`工具实现推理,提供示例命令及输出结果说明,并解决常见问题(如环境变量未设置、输入与模型不匹配等)。此外,还提供了API推理指南及参考链接,帮助用户深入了解ONNX离线推理流程、性能优化案例及工具使用方法。
241 0
|
5月前
|
机器学习/深度学习 PyTorch 算法框架/工具
飞桨x昇腾生态适配方案:00_整体方案介绍
本文详细介绍PaddlePaddle与NPU的适配工作,涵盖训练与推理支持、性能优化及离线推理方案。PaddleCustomDevice作为适配层,支持主流模型(详见飞桨-昇腾模型列表),多数性能媲美V100,部分调优模型接近0.8*A800。硬件适配主要针对A2芯片,A1兼容但310系列建议离线推理。提供常用模型仓链接及整体方案导览,包括环境准备、算子适配、性能调优和Paddle转ONNX/OM等内容。
246 0
|
2月前
|
编解码 文字识别 自然语言处理
Dots.ocr:告别复杂多模块架构,1.7B参数单一模型统一处理所有OCR任务22
Dots.ocr 是一款仅1.7B参数的视觉语言模型,正在重塑文档处理技术。它将布局检测、文本识别、阅读顺序理解和数学公式解析等任务统一于单一架构,突破传统OCR多模块流水线的限制。在多项基准测试中,其表现超越大参数模型,展现出“小而精”的实用价值,标志着OCR技术向高效、统一、灵活方向演进。
266 0
Dots.ocr:告别复杂多模块架构,1.7B参数单一模型统一处理所有OCR任务22