RaceSnail_个人页

RaceSnail

文章

问答

视频

个人介绍

暂无个人介绍

擅长的技术

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

发表了文章 2025-06-05

昇腾NPU上基于MindIE服务的AIME和MATH500测评方案

本文介绍了基于MindIE服务和lighteval工具对DeepSeek-R1类模型进行能力测评的方法。针对AIME 2024、AIME 2025、MATH-500和GPQA等数据集，通过在Atlas 800I A2硬件上部署MindIE服务，结合开源项目Open R1的评测方法完成测评。主要内容包括模型权重下载、MindIE服务化部署、lighteval安装与配置，以及使用openai模式进行测评的具体步骤。最终展示了AIME 2024和MATH-500的测评结果，并对比了DeepSeek官方数据。该方案适合需要准确评估带推理思维链模型性能的场景。
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：14_loop算子缺失（上）：ONNX模型拆分

本文针对NPU不支持LOOP算子的问题，提出一种解决方案：将ONNX模型拆分为含LOOP算子和不含LOOP算子的子图，单独推理LOOP部分。通过构造包含LOOP算子的ONNX模型，将其转换为JSON格式提取子图，并对子图进行修改（如添加输入节点、删除无关节点）。最后，将JSON转回ONNX格式，完成模型切分与优化。此方法适用于关键路径上的LOOP算子，可有效解决离线推理中的兼容性问题。
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：13_API离线推理

ais_bench 提供了基于昇腾硬件的 Python API，用于离线模型（.om模型）推理。支持静态与动态API场景，如单个或多个OM模型推理。通过 `InferSession` 类加载模型并执行推理，可灵活处理输入输出形状转换。示例代码涵盖图片读取、形状调整、多模型串联推理及资源释放等操作，满足多样化推理需求。
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：15_loop算子缺失（下）：for循环替换loop

本章节基于上一内容，将ONNX模型拆分为loop算子部分与非loop算子部分，分别转换为OM模型。通过使用for循环替换loop算子的计算逻辑，构造子图执行流程，并编写OM模型推理脚本进行验证。同时，编写ONNX模型推理脚本对比两者推理结果，确保一致性。实验结果表明，拆分后的OM模型与原始ONNX模型推理结果一致，证明方案可行。
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：12_动态OM推理

本文介绍了基于Ascend AI平台的OM模型动态推理方法，包括动态BatchSize、动态分辨率、动态维度及动态Shape四种场景，支持固定模式与自动设置模式。通过`ais_bench`工具实现推理，提供示例命令及输出结果说明，并解决常见问题（如环境变量未设置、输入与模型不匹配等）。此外，还提供了API推理指南及参考链接，帮助用户深入了解ONNX离线推理流程、性能优化案例及工具使用方法。
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：11_静态OM推理

昇腾AI推理工具`ais_bench`基于ACL开发，支持命令行快速推理与性能测试（吞吐率、时延等），并提供相关API。用户需下载适配环境的`aclruntime`和`ais_bench`的whl包后通过pip安装。设置环境变量后，可通过多种场景使用工具：纯推理（默认输入全0数据）、调试模式（获取详细参数与耗时信息）、文件/文件夹输入（指定Numpy文件或目录）、以及多Device并行推理。例如，BERT模型需按顺序传入三个文件夹对应其输入参数。工具输出包括吞吐率、耗时等关键指标，助力高效模型性能评估。
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：10_ONNX转OM

本章节主要介绍如何将ONNX模型转化为昇腾AI处理器支持的OM模型，并进行离线推理。通过昇腾张量编译器（ATC），可实现静态OM、动态BatchSize、动态分辨率、动态维度及动态shape等多种模型转换。文中详细说明了ATC工具的使用方法、参数配置、命令格式以及常见问题解决方法，同时提供了具体示例和可视化工具辅助输入参数确认，帮助用户高效完成模型转换与部署。
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：07_性能数据分析

本文介绍了性能调优的全流程，包括分析、定位与优化。通过 profiling 工具采集算子级性能数据，定位计算与调度通信瓶颈。针对计算时间过长问题，可通过升级算子或提交工单解决；调度优化则关注重复编译，关闭在线编译或使用 aclnn 算子可提升效率。数据采集使用 paddlepaddle 的 profiler 工具，结合 msprof 解析生成的性能数据，重点分析 op_statistic_*.csv 和 op_summary_*.csv 文件，通过关键字段（如 Ratio、Total Time、Task Duration 和 Task Wait Time）量化性能瓶颈并实施优化策略。
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：09_Paddle转ONNX

本节主要介绍如何将 PP-OCRv4 模型转化为 ONNX 模型，包括环境准备、模型下载、训练模型转 inference 模型及最终转为 ONNX 格式的过程。首先需安装 Paddle2ONNX 和 ONNXRuntime，接着下载并解压训练模型。通过 `export_model.py` 脚本将训练模型转化为 inference 模型，生成包含结构和参数的文件。最后使用 Paddle2ONNX 工具完成到 ONNX 格式的转换，并可选地使用 onnxslim 进行模型优化。各步骤均提供详细命令与参数说明，便于实际操作与部署。
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：03_模型训练迁移

本案例以PaddleOCRv4模型为例，详细介绍了将模型迁移到NPU的完整流程。迁移过程中需确保模型功能在新硬件上无误，重点关注偶发性错误及长时间运行时可能出现的问题，并通过日志辅助定位问题。文档涵盖环境搭建、数据集准备、模型配置、训练启动及常见问题排查等内容。例如，通过设置环境变量排查缺失算子，处理Paddle版本兼容性问题，以及解决进程残留等。适合希望将OCR模型部署到NPU的开发者参考。
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：05_算子适配流程

本内容主要介绍Paddle针对非CPU和Nvidia GPU硬件（如NPU）的适配流程与方法。适配代码存于PaddleCustomDevice仓库，路径为`PaddleCustomDevice/backends/npu`，包含kernels（算子适配）和tests（单元测试）两个核心目录。适配流程分为算子注册、适配函数入参与主体实现三步，重点对齐Paddle与CANN算子参数。
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：06_算子适配举例

本节详细解析了Paddle-API与CANN-Kernel之间的差异及适配策略，涵盖三种主要场景：参数缺失或不对应、数据类型不匹配以及layout转换。针对不同问题提出具体解决方案，如通过默认赋值或计算补充参数、使用`Cast`操作转换数据类型、借助`Transpose`调整数据布局等。同时，以ReluGrad和nll_loss算子为例，深入说明参数对齐、数据类型转换及转置操作的实现流程，为开发者提供清晰的适配指导。
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：04_模型精度对齐

本文详细介绍了模型在不同硬件（如GPU与NPU）间迁移时的精度对齐方法，包括前向和反向对齐的具体步骤。前向对齐通过模块化对比计算结果（如平均值、最大最小值等），确保误差在合理范围内；反向对齐则聚焦于梯度差异，利用二分法定位问题算子。同时，文章结合PPHGNet_small和MultiHead等具体模块代码，说明了如何打印输出并分析中间结果。此外，还探讨了私有格式、梯度异常及特殊shape等可能影响精度的因素，并提出相应解决策略。整体流程清晰，为跨硬件模型迁移提供了实用指导。
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：08_性能调优方法

本文主要探讨性能优化中的问题定界与解决方法，针对计算时间和调度时间两方面展开分析。对于计算时间长的问题，可能源于算子运行在 AI_CPU 或使用较慢的 aclop 算子，可通过数据类型转换、切换至 aclnn 算子或优化底层算子来改善。调度时间长则常因算子运行在 CPU、重复编译或通讯耗时过多引起，可采取算子适配优化、减少编译次数及避免冗余 copy 操作等手段解决。此外，文章还介绍了适配层优化策略，包括未注册算子排查、重复编译优化以及通过更换算子、调整数据类型和引入融合算子提升性能。
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：02_常用环境变量

本节介绍训练前建议设置的常用环境变量，涵盖NPU私有格式、在线编译、性能优化参数（如`aclnn_scale`和`aclnn_split`）、算子黑名单配置、NPU卡号指定、Paddle内存分配策略及日志设置等内容。通过合理配置这些变量，可有效提升训练性能并解决潜在问题。例如，关闭`FLAGS_npu_storage_format`以禁用NPU私有格式，或调整`ASCEND_MAX_OP_CACHE_SIZE`优化Kernel缓存大小。同时，CANN和Paddle的日志环境变量也提供了调试支持。
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：01_基础环境准备

本指南详细介绍在ARM环境中准备CANN环境、安装Paddle深度学习框架及PaddleCustomDevice的过程。首先下载并加载CANN镜像，启动Docker容器；接着通过日构建包或源码编译安装PaddlePaddle和PaddleCustomDevice；可选更新CANN版本时需注意环境变量配置与路径设置。最后提供基础功能检查方法，包括硬件后端、版本验证及框架健康检查，确保环境搭建成功。
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：00_整体方案介绍

本文详细介绍PaddlePaddle与NPU的适配工作，涵盖训练与推理支持、性能优化及离线推理方案。PaddleCustomDevice作为适配层，支持主流模型（详见飞桨-昇腾模型列表），多数性能媲美V100，部分调优模型接近0.8*A800。硬件适配主要针对A2芯片，A1兼容但310系列建议离线推理。提供常用模型仓链接及整体方案导览，包括环境准备、算子适配、性能调优和Paddle转ONNX/OM等内容。

暂无更多信息

发表了文章 2025-06-06

昇腾NPU上基于MindIE服务的AIME和MATH500测评方案
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：14_loop算子缺失（上）：ONNX模型拆分
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：13_API离线推理
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：15_loop算子缺失（下）：for循环替换loop
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：12_动态OM推理
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：11_静态OM推理
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：10_ONNX转OM
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：07_性能数据分析
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：09_Paddle转ONNX
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：03_模型训练迁移
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：05_算子适配流程
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：06_算子适配举例
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：04_模型精度对齐
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：08_性能调优方法
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：02_常用环境变量
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：01_基础环境准备
发表了文章 2025-05-06

飞桨x昇腾生态适配方案：00_整体方案介绍

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

正在加载, 请稍后...

暂无更多信息

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

RaceSnail_个人页

个人介绍

擅长的技术

昇腾NPU上基于MindIE服务的AIME和MATH500测评方案

飞桨x昇腾生态适配方案：14_loop算子缺失（上）：ONNX模型拆分

飞桨x昇腾生态适配方案：13_API离线推理

飞桨x昇腾生态适配方案：15_loop算子缺失（下）：for循环替换loop

飞桨x昇腾生态适配方案：12_动态OM推理

飞桨x昇腾生态适配方案：11_静态OM推理

飞桨x昇腾生态适配方案：10_ONNX转OM

飞桨x昇腾生态适配方案：07_性能数据分析

飞桨x昇腾生态适配方案：09_Paddle转ONNX

飞桨x昇腾生态适配方案：03_模型训练迁移

飞桨x昇腾生态适配方案：05_算子适配流程

飞桨x昇腾生态适配方案：06_算子适配举例

飞桨x昇腾生态适配方案：04_模型精度对齐

飞桨x昇腾生态适配方案：08_性能调优方法

飞桨x昇腾生态适配方案：02_常用环境变量

飞桨x昇腾生态适配方案：01_基础环境准备

飞桨x昇腾生态适配方案：00_整体方案介绍

昇腾NPU上基于MindIE服务的AIME和MATH500测评方案

飞桨x昇腾生态适配方案：14_loop算子缺失（上）：ONNX模型拆分

飞桨x昇腾生态适配方案：13_API离线推理

飞桨x昇腾生态适配方案：15_loop算子缺失（下）：for循环替换loop

飞桨x昇腾生态适配方案：12_动态OM推理

飞桨x昇腾生态适配方案：11_静态OM推理

飞桨x昇腾生态适配方案：10_ONNX转OM

飞桨x昇腾生态适配方案：07_性能数据分析

飞桨x昇腾生态适配方案：09_Paddle转ONNX

飞桨x昇腾生态适配方案：03_模型训练迁移

飞桨x昇腾生态适配方案：05_算子适配流程

飞桨x昇腾生态适配方案：06_算子适配举例

飞桨x昇腾生态适配方案：04_模型精度对齐

飞桨x昇腾生态适配方案：08_性能调优方法

飞桨x昇腾生态适配方案：02_常用环境变量

飞桨x昇腾生态适配方案：01_基础环境准备

飞桨x昇腾生态适配方案：00_整体方案介绍