升级3:飞天AI推理加速引擎|学习笔记

简介: 快速学习升级3:飞天AI推理加速引擎

开发者学堂课程【如何利用飞天AI解决方案帮助升级异构计算的AI架构:升级3:飞天AI推理加速引擎】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/648/detail/10749


升级3:飞天AI推理加速引擎


内容介绍:

一、基于异构计算 AI 应用架构的问题三

二、AIACC-Inference 架构

三、高性能算子库底层性能优化技术

四、客户案例


一、基于异构计算 AI 应用架构的问题三

在解决训练问题之后,又遇到一个推理的问题,会有客户反映推理延迟太高,可能需要实时性的要求,推理可能在10毫秒之内就要返回,但往往推理时达不到用户的需求,其中一个重要原因是 GPU 计算能力不能充分发挥,GPU的利用率低,另外一个问题是对 PyTorch 没有做优化;第二个问题是客户场景多样化,不同的计算框架、不同的场景都要做优化;第三个问题是缺乏统一推理优化引擎,Tensorflow、TensorRT、Serving、PyTorch、MXNET 都有自己的特定引擎,所以遇到不同客户不同需求时,要针对不同的场景,不同的引擎做优化。所以升级3是飞天 AI 推理加速引擎。AIACC 推理加速引擎(AIACC-Inference),它支持 AIACC-Tensorflow、AIACC-PyTorch、AIACC-MXNET、AIACC-Kaldi 的统一优化。


二、AIACC-Inference架构

1.png

AIACC-Inference 架构如下图所示,Tensorflow、PyTorch、MXNET、Kaldi 的模型都可以通过框架做自动的优化,Tensorflow 直接通过模型的Loader来做模型的自动优化,包括子图分割、层融合优化以及量化优化,最终转化成含TensorRT 的高性能算子库,含有自行研发的 keno,PyTorch、MXNET、Kaldi 先通过模型的转换,转换成 ONNX 的模型,对其进行自动优化,最终通过子图分割、层融合优化以及量化优化之后,转化成高性能算子库的优化,最终只需要对高性能算子库做一份底层优化的代码,就可以满足这些优化的需求。


三、高性能算子库底层性能优化技术

优化技术主要针对 GPU 底层的优化,包括数据分块优化,将合适的数据分块,减少矩阵元素 load 次数;缓存优化,将数据分块放入共享内存、寄存器,双缓冲区,计算前先 load 下一个块,避免 bankconflict 性能恶化、数据布局偏置;同时访存带宽优化,每个线程读多个数据,合并访问,提高显存带宽利用率;计算优化,计算、访存重叠,隐藏数据访问开销,同时控制单线程寄存器数量,提高并行度;自动参数搜索,自动找到最合适的优化方式;优化结果,最终卷积性比 TensorRT6提升到1.3~2.4倍。

1.png


四、客户案例

客户案例一是加速视频超分推理性能视频超分配置是T4GPU,性能优化包括把视频解码移植到 GPU、前后处理移植到GPU、自动凑 Batch、做卷积深度优化,最终性能提升到2.7倍,QBS 从之前的150提升到现在的400多。

1.png

客户案例二是加速图像合成推理性能,性能优化包括前后处理移植到 GPU,自动凑 Batch,卷积深度优化,最终整体性能提升到4倍。

1.png

客户案例三是加速 CTR 预估推理性能,模型是 Wide&Deep 模型,配置是 M40GPU,性能优化包括流水线优化,模型拆分,子模型分别优化,最终性能提升到6.1倍

1.png

客户案例四是加速 NLP 推理性能,模型是 Bert 模型,配置是 T4GPU,之前的 QBS 是100,优化后可以提升到350,性能提升到3.3倍。

1.png

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
20天前
|
存储 人工智能 弹性计算
AI计算加速渗透、基础设施全面升级…云栖大会重磅发布全览
AI计算加速渗透、基础设施全面升级…云栖大会重磅发布全览
|
18天前
|
存储 人工智能 运维
重磅!阿里云可观测产品家族全新升级,AI +数据双驱动,打造全栈可观测体系
近日,阿里云可观测产品家族正式发布云监控 2.0,隶属产品日志服务 SLS、云监控 CMS、应用实时监控服务 ARMS 迎来重磅升级。
|
1天前
|
存储 人工智能 大数据
【一图看懂】云存储“4任意+3智能”升级,以数据驱动AI创新
阿里云围绕Storage for AI与AI in Storage两大领域,对其存储服务进行全面升级。
|
3天前
|
存储 人工智能 大数据
Data+AI双轮驱动,阿里云存储服务全面升级
近日,2024云栖大会现场,阿里云宣布对其存储服务进行全面升级,围绕Storage for AI与AI in Storage两大领域,提出“4任意+3智能”的升级方向,揭示存储与AI的双向赋能路径。阿里云存储产品将支持更多AI应用高效创新,同时AI也将助力基础设施迭代,助力企业更好地管理数据资产。
|
15天前
|
云安全 人工智能 安全
AI时代云安全新范式,阿里云安全能力全线升级!
AI时代,云安全面临着新的挑战,不仅要持续面对以往的传统问题,更需要全新理念落地于产品设计、技术演进、架构设计,才能实现效果、性能、和成本的最优解。
51 0
|
8天前
|
人工智能 自然语言处理 搜索推荐
AI技术在智能客服系统中的应用与挑战
【9月更文挑战第32天】本文将探讨AI技术在智能客服系统中的应用及其面临的挑战。我们将分析AI技术如何改变传统客服模式,提高服务质量和效率,并讨论在实际应用中可能遇到的问题和解决方案。
112 65
|
2天前
|
人工智能 Serverless
AI助理精准匹配,为您推荐方案——如何添加一个Stable Difussion图像生成应用
介绍了一种利用AI助手快速获取并搭建Stable Diffusion图像生成应用的方法。用户只需在阿里云官网向AI助手提出需求,即可获得详细的实施方案。随后,按照AI助手提供的方案,通过函数计算部署应用,并进行测试。此过程显著提升了开发效率。
28 1
AI助理精准匹配,为您推荐方案——如何添加一个Stable Difussion图像生成应用
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI技术在医疗领域的应用
【8月更文挑战第67天】随着人工智能技术的不断发展,其在医疗领域的应用也日益广泛。本文将探讨AI技术在医疗领域的应用,包括辅助诊断、个性化治疗方案和智能医疗设备等方面。通过实例分析,我们将了解AI技术如何改变传统医疗模式,提高医疗服务的质量和效率。
40 16
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI在医疗诊断中的应用与挑战
人工智能(AI)在医疗领域展现出巨大潜力,尤其在医疗诊断中。本文将探讨AI如何通过深度学习、计算机视觉等技术辅助医生进行疾病诊断,提高准确性和效率。同时,分析当前面临的数据隐私、算法透明度以及监管等问题,并提出可能的解决方案。最后,讨论AI在未来医疗中的前景,强调其在个性化治疗和远程医疗中的潜在应用。
|
1天前
|
机器学习/深度学习 人工智能 自动驾驶
AI技术在现代生活中的应用:从理论到实践
AI技术在现代生活中的应用:从理论到实践
9 2

热门文章

最新文章