【Hello AI】自动安装AIACC-Inference(AIACC推理加速)

简介: AIACC-Inference(AIACC推理加速)支持优化基于TensorFlow和可导出ONNX格式的框架搭建的模型,能显著提升推理性能。本文介绍如何自动安装AIACC-Inference(AIACC推理加速)并测试demo。

AIACC-Inference(AIACC推理加速)支持优化基于TensorFlow和可导出ONNX格式的框架搭建的模型,能显著提升推理性能。本文介绍如何自动安装AIACC-Inference(AIACC推理加速)并测试demo。

背景信息

Conda是一款开源跨平台的软件包和环境管理系统,Miniconda是一款小巧的Conda环境部署工具。创建GPU实例时支持自动安装包含AIACC-Inference(AIACC推理加速)的Conda环境,您可以使用Miniconda快速选择不同的Conda环境,并通过AIACC-Inference(AIACC推理加速)显著提升推理性能。

ONNX是一种开放式的文件格式,用于存储训练好的模型。通过ONNX可以将不同框架(例如Pytorch、MXNet)的模型数据存储成统一的格式,便于在同一环境下测试不同框架的模型。

自动安装AIACC-Inference

AIACC-Inference(AIACC推理加速)依赖GPU驱动、CUDA和cuDNN,请在创建GPU实例时,选中安装GPU驱动AIACC推理加速,然后选择CUDA、Driver和cuDNN的版本。GPU实例创建完成后,您可以根据CUDA版本快速配置包含AIACC-Inference(AIACC推理加速)的Conda环境。创建GPU实例的具体操作,请参见创建配备GPU驱动的GPU实例(Linux)

测试demo

  1. 远程连接实例
  2. 选择Conda环境。
  1. 初始化Miniconda。
source /root/miniconda/etc/profile.d/conda.sh
  1. 查看已有的Conda环境列表。
conda env list

示例如下图所示。

  1. 选择Conda环境。
conda activate [environments_name]

示例如下图所示。

  1. 测试demo。

demo文件aiacc_inference_demo.tgz默认位于/root下,本文以测试ONNX的demo为例。

  1. 解压demo测试包。
tar -xvf aiacc_inference_demo.tgz
  1. 进入ONNX的demo目录。
cd /root/aiacc_inference_demo/aiacc_inference_onnx/resnet50v1
  1. 执行目录下的测试脚本。

示例命令如下:

python3 test.py

该测试脚本基于ResNet50模型执行推理任务,随机生成一张图像并分类,将推理耗时从6.4 ms降低至1.5 ms以内。推理结果示例如下图所示。

删除Miniconda

如果您不需要使用AIACC-Inference(AIACC推理加速),可以删除Miniconda。系统默认为root用户安装Miniconda,您可以先使用root用户清除相关环境变量,然后再删除Miniconda文件夹即可。

  1. 删除相关环境变量和回显。
  1. 修改文件/root/.bash_profile,注释Miniconda、AIACC-Inference(AIACC推理加速)相关的环境变量和回显。

示例如下图所示:

  1. 可选:如果已经启动了Conda环境,请您删除当前环境下Conda相关的环境变量。
conda deactivate
unset conda
export PATH=`echo $PATH | tr ":" "\n" | grep -v "conda" | tr "\n" ":"`
export LD_LIBRARY_PATH=`echo $LD_LIBRARY_PATH | tr ":" "\n" | grep -v "conda" | tr "\n" ":"`
  1. 删除Miniconda文件夹。
rm -rf /root/miniconda

好啦!小弹的分享到此为止。我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽,请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

【扫码填写上方调研问卷】

欢迎每位来到弹性计算的开发者们来反馈问题哦~

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
9天前
|
机器学习/深度学习 人工智能 安全
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
GLM-Zero 是智谱AI推出的深度推理模型,专注于提升数理逻辑、代码编写和复杂问题解决能力,支持多模态输入与完整推理过程输出。
119 24
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
AigcPanel:开源的 AI 虚拟数字人系统,一键安装开箱即用,支持视频合成、声音合成和声音克隆
AigcPanel 是一款开源的 AI 虚拟数字人系统,支持视频合成、声音克隆等功能,适用于影视制作、虚拟主播、教育培训等多种场景。
151 12
AigcPanel:开源的 AI 虚拟数字人系统,一键安装开箱即用,支持视频合成、声音合成和声音克隆
|
1月前
|
存储 人工智能 自然语言处理
ChatMCP:基于 MCP 协议开发的 AI 聊天客户端,支持多语言和自动化安装 MCP 服务器
ChatMCP 是一款基于模型上下文协议(MCP)的 AI 聊天客户端,支持多语言和自动化安装。它能够与多种大型语言模型(LLM)如 OpenAI、Claude 和 OLLama 等进行交互,具备自动化安装 MCP 服务器、SSE 传输支持、自动选择服务器、聊天记录管理等功能。
198 15
ChatMCP:基于 MCP 协议开发的 AI 聊天客户端,支持多语言和自动化安装 MCP 服务器
|
1月前
|
人工智能 安全 测试技术
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。
88 9
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
|
18天前
|
人工智能 供应链 安全
面向高效大模型推理的软硬协同加速技术 多元化 AI 硬件引入评测体系
本文介绍了AI硬件评测体系的三大核心方面:统一评测标准、平台化与工具化、多维度数据消费链路。通过标准化评测流程,涵盖硬件性能、模型推理和训练性能,确保评测结果客观透明。平台化实现资源管理与任务调度,支持大规模周期性评测;工具化则应对紧急场景,快速适配并生成报告。最后,多维度数据消费链路将评测数据结构化保存,服务于综合通用、特定业务及专业性能分析等场景,帮助用户更好地理解和使用AI硬件。
|
1月前
|
存储 机器学习/深度学习 PyTorch
【AI系统】推理文件格式
本文介绍了神经网络模型的序列化与反序列化技术,涵盖跨平台通用序列化方法(如 Protobuf 和 FlatBuffers)、模型自定义序列化方法、语言级通用序列化方法等,重点讨论了这两种流行文件格式的特点、使用场景及其在模型部署中的作用。
40 1
【AI系统】推理文件格式
|
5天前
|
机器学习/深度学习 人工智能 缓存
基于英特尔平台加速 AI 应用及 LLM 推理性能介绍|龙蜥大讲堂第115期
本文摘自龙蜥大讲堂英特尔 AI 软件工程师黄文欢的分享,主要包括以下三个方面的内容: 1. 第五代英特尔至强处理器 2. LLM 推理加速框架 xFast Transformer 及其优化策略 3. 性能数据及 Demo 展示
|
1月前
|
存储 人工智能 监控
【AI系统】推理系统架构
本文深入探讨了AI推理系统架构,特别是以NVIDIA Triton Inference Server为核心,涵盖推理、部署、服务化三大环节。Triton通过高性能、可扩展、多框架支持等特点,提供了一站式的模型服务解决方案。文章还介绍了模型预编排、推理引擎、返回与监控等功能,以及自定义Backend开发和模型生命周期管理的最佳实践,如金丝雀发布和回滚策略,旨在帮助构建高效、可靠的AI应用。
133 15
|
17天前
|
人工智能 容灾 Serverless
AI推理新纪元,PAI全球化模型推理服务的创新与实践
本次分享主题为“AI推理新纪元,PAI全球化模型推理服务的创新与实践”,由阿里云高级产品经理李林杨主讲。内容涵盖生成式AI时代推理服务的变化与挑战、play IM核心引擎的优势及ES专属网关的应用。通过LM智能路由、多模态异步生成等技术,PAI平台实现了30%以上的成本降低和显著性能提升,确保全球客户的业务稳定运行并支持异地容灾,目前已覆盖16个地域,拥有10万张显卡的推理集群。
|
1月前
|
机器学习/深度学习 人工智能 缓存
【AI系统】推理内存布局
本文介绍了CPU和GPU的基础内存知识,NCHWX内存排布格式,以及MNN推理引擎如何通过数据内存重新排布进行内核优化,特别是针对WinoGrad卷积计算的优化方法,通过NC4HW4数据格式重排,有效利用了SIMD指令集特性,减少了cache miss,提高了计算效率。
57 3