离线推理性能问题分析

简介: 传统模型迁移到昇腾设备上出现了性能问题,介绍性能问题的定位方法和解决方案,重点介绍了性能问题的定位定界方法。

概述

PTA性能调优参考指导:链接

性能问题背景

模型从GPU设备迁移到昇腾设备上进行推理时,模型的开箱性能差。

推理e2e耗时

infer_e2e_time = 数据加载时间 + 模型前向时间 + 模型后处理时间 + 通信时间 + 调度时间

  • 数据加载时间:模型在加载自身所需要的数据(如图片、视频和文本等)的时间,包括将数据从硬件存储设备读取到CPU(Central Processing Unit)中、CPU中数据的预处理(编解码等操作)、CPU数据放到Device上的时间。对于一些需要切分在若干张卡上的模型,数据加载还包括从数据加载卡广播到其他卡上的时间。
  • 模型前反向时间:深度学习模型Forward所需的时间。
  • 模型后处理时间:包括数据的后处理、数据同步等。
  • 通信时间:单节点时卡之间和多节点时节点之间的通信时间。由于PyTorch的特殊机制,在通信和计算可以并行的情况下,表示未被计算掩盖的通信时间。
  • 调度时间:模型从CPU的指令到调用NPU侧的核(Kernel)所需要的时间。

性能优化目标

  • 计算:算子性能优化、融合算子、AICPU转AICore等
  • 通信:通信占比是否合理
  • 调度:free占比尽可能小、计算掩盖调度时间等

性能分析

性能调优流程:性能数据采集-》算子层优化-》调度策略调整-》通信机制-》模型编译下发等

性能数据采集

  • 方式1:使用ais_bench采集profiling
    python -m ais_bench --model ./resnet50_bs1.om --output `pwd`/performance_test --profiler 1
    
    1749719128767_image.png
  • 方式2:使用msprof工具采集
    msprof --output=./msprof_out --application="python3 om_infer.py"
    
    1749719466828_image.png

性能数据文件分析

各性能文件解析说明:链接

使用msprof-analyze工具分析性能数据

参考指导:链接

pip3 install msprof-analyze

msprof-analyze advisor all -d ./msprof_out/

1749720271282_image.png

使用MindStudio Insight可视化工具分析性能

参考指导:链接

优化方案

参考文档:性能优化

相关文章
|
8天前
|
人工智能 机器人 应用服务中间件
2026年阿里云基于Moltbot(原Clawdbot)构建钉钉AI员工:轻量应用服务器部署指南
Moltbot(原Clawdbot)是一款开源本地优先AI代理与自动化平台,核心能力是整合多渠道通信与大语言模型,创建具备持久记忆、主动执行能力的定制化AI助理。2026年阿里云通过轻量应用服务器提供一键部署方案,支持将Moltbot与钉钉深度集成,构建7×24小时在线的“钉钉AI员工”,可自动完成邮件处理、日程管理、文档生成等办公任务,降低人工成本。本文严格依据阿里云官方流程,详细拆解从Moltbot部署到钉钉集成的全步骤,确保操作可落地、信息无篡改。
494 6
|
8月前
|
缓存 PyTorch 算法框架/工具
离线推理精度问题分析
传统模型迁移到昇腾设备上出现了精度问题,介绍精度问题的定位方法和解决方案,重点介绍了精度问题的定位定界方法。
离线推理精度问题分析
|
8月前
|
存储 安全 API
HarmonyOS隐私保护全攻略:从入门到精通
在移动互联网时代,隐私保护至关重要。本文为HarmonyOS开发者提供从入门到精通的隐私保护全攻略。通过透明公开、数据最小化、用户可控及安全至上四大原则,结合实际代码示例,讲解位置权限优化、存储权限瘦身与敏感权限动态申请等技巧。同时关注未成年人保护与国际法规遵从,提供检查清单和沟通技巧,助你提升用户信任与体验。记住:更少的权限意味着更多的信任!
|
8月前
|
缓存 负载均衡 监控
微服务架构下的电商API接口设计:策略、方法与实战案例
本文探讨了微服务架构下的电商API接口设计,旨在打造高效、灵活与可扩展的电商系统。通过服务拆分(如商品、订单、支付等模块)和标准化设计(RESTful或GraphQL风格),确保接口一致性与易用性。同时,采用缓存策略、负载均衡及限流技术优化性能,并借助Prometheus等工具实现监控与日志管理。微服务架构的优势在于支持敏捷开发、高并发处理和独立部署,满足电商业务快速迭代需求。未来,电商API设计将向智能化与安全化方向发展。
497 102
|
11月前
|
PyTorch 编译器 算法框架/工具
NPU上如何使能pytorch图模式
本文介绍了PyTorch的`torch.compile`技术和TorchAir的相关内容。`torch.compile`通过将动态图转换为静态图并结合JIT编译,提升模型推理和训练效率。示例代码展示了如何使用`torch.compile`优化模型。TorchAir是昇腾为PyTorch提供的图模式扩展库,支持在昇腾设备上进行高效训练和推理。它基于Dynamo特性,将计算图转换为Ascend IR,并通过图引擎优化执行。文章还提供了TorchAir的使用示例及功能配置方法。
|
9月前
|
API Python
飞桨x昇腾生态适配方案:13_API离线推理
ais_bench 提供了基于昇腾硬件的 Python API,用于离线模型(.om模型)推理。支持静态与动态API场景,如单个或多个OM模型推理。通过 `InferSession` 类加载模型并执行推理,可灵活处理输入输出形状转换。示例代码涵盖图片读取、形状调整、多模型串联推理及资源释放等操作,满足多样化推理需求。
651 26
|
8月前
|
前端开发 开发工具 C++
离线推理全流程&模型调优
本指南详细介绍小模型推理方案,涵盖从模型转换到推理的全流程。包括ATC架构转换、ModelZoo-PyTorch指导文档、ONNX导出与优化、离线及在线推理等环节。特别针对Chinese_CLIP模型,提供上机操作指导,如模型支持度分析、onnx-sim简化、msit surgeon优化、AOE自动调优和模型压缩等步骤。
离线推理全流程&模型调优
|
8月前
|
atlas 开发者 容器
搞定昇腾软件版本配套问题
开发者拿到一个裸机环境,如800I A2/800T A2, 或Atlas 800 3000推理服务器(里面插了Iduo卡),需要用户根据OS版本去安装配套的固件驱动、Mind系列软件等。
搞定昇腾软件版本配套问题
|
8月前
|
物联网 容器
基于llama-factory的昇腾实战
基于llama-factory的昇腾全流程实践,包括环境的安装、推理部署、微调、动态Lora和对话。
基于llama-factory的昇腾实战
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
DeepSeek vs. ChatGPT:大语言模型的技术分野与应用边界全解析
DeepSeek更适合中文环境下对语言理解和生成准确性要求高、专业领域内容生成需求大,以及对成本敏感、实时性要求高和硬件资源有限的场景。ChatGPT则更适合需要处理多种语言,尤其是以英文等西方语言为主,以及对创意写作、开放域对话有需求,对成本和实时性要求不高且有强大硬件支持的场景。两款模型各有侧重,用户可根据具体需求选择最适合的工具。