升级3:飞天AI推理加速引擎|学习笔记

简介: 快速学习升级3:飞天AI推理加速引擎

开发者学堂课程【如何利用飞天AI解决方案帮助升级异构计算的AI架构:升级3:飞天AI推理加速引擎】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/648/detail/10749


升级3:飞天AI推理加速引擎


内容介绍:

一、基于异构计算 AI 应用架构的问题三

二、AIACC-Inference 架构

三、高性能算子库底层性能优化技术

四、客户案例


一、基于异构计算 AI 应用架构的问题三

在解决训练问题之后,又遇到一个推理的问题,会有客户反映推理延迟太高,可能需要实时性的要求,推理可能在10毫秒之内就要返回,但往往推理时达不到用户的需求,其中一个重要原因是 GPU 计算能力不能充分发挥,GPU的利用率低,另外一个问题是对 PyTorch 没有做优化;第二个问题是客户场景多样化,不同的计算框架、不同的场景都要做优化;第三个问题是缺乏统一推理优化引擎,Tensorflow、TensorRT、Serving、PyTorch、MXNET 都有自己的特定引擎,所以遇到不同客户不同需求时,要针对不同的场景,不同的引擎做优化。所以升级3是飞天 AI 推理加速引擎。AIACC 推理加速引擎(AIACC-Inference),它支持 AIACC-Tensorflow、AIACC-PyTorch、AIACC-MXNET、AIACC-Kaldi 的统一优化。


二、AIACC-Inference架构

1.png

AIACC-Inference 架构如下图所示,Tensorflow、PyTorch、MXNET、Kaldi 的模型都可以通过框架做自动的优化,Tensorflow 直接通过模型的Loader来做模型的自动优化,包括子图分割、层融合优化以及量化优化,最终转化成含TensorRT 的高性能算子库,含有自行研发的 keno,PyTorch、MXNET、Kaldi 先通过模型的转换,转换成 ONNX 的模型,对其进行自动优化,最终通过子图分割、层融合优化以及量化优化之后,转化成高性能算子库的优化,最终只需要对高性能算子库做一份底层优化的代码,就可以满足这些优化的需求。


三、高性能算子库底层性能优化技术

优化技术主要针对 GPU 底层的优化,包括数据分块优化,将合适的数据分块,减少矩阵元素 load 次数;缓存优化,将数据分块放入共享内存、寄存器,双缓冲区,计算前先 load 下一个块,避免 bankconflict 性能恶化、数据布局偏置;同时访存带宽优化,每个线程读多个数据,合并访问,提高显存带宽利用率;计算优化,计算、访存重叠,隐藏数据访问开销,同时控制单线程寄存器数量,提高并行度;自动参数搜索,自动找到最合适的优化方式;优化结果,最终卷积性比 TensorRT6提升到1.3~2.4倍。

1.png


四、客户案例

客户案例一是加速视频超分推理性能视频超分配置是T4GPU,性能优化包括把视频解码移植到 GPU、前后处理移植到GPU、自动凑 Batch、做卷积深度优化,最终性能提升到2.7倍,QBS 从之前的150提升到现在的400多。

1.png

客户案例二是加速图像合成推理性能,性能优化包括前后处理移植到 GPU,自动凑 Batch,卷积深度优化,最终整体性能提升到4倍。

1.png

客户案例三是加速 CTR 预估推理性能,模型是 Wide&Deep 模型,配置是 M40GPU,性能优化包括流水线优化,模型拆分,子模型分别优化,最终性能提升到6.1倍

1.png

客户案例四是加速 NLP 推理性能,模型是 Bert 模型,配置是 T4GPU,之前的 QBS 是100,优化后可以提升到350,性能提升到3.3倍。

1.png

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
21天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
|
17天前
|
人工智能 算法 程序员
程序员如何借势AI提高自己:从高效工作到技能升级的全面指南
【11月更文挑战第4天】程序员可以通过以下几个方面借势 AI 提升自己:1. 日常工作效率提升,包括智能代码编写与补全、自动化测试与调试、项目管理与协作;2. 技能学习与升级,涵盖基础知识学习和深入技术研究;3. 思维拓展与创新能力培养,激发创意灵感和培养批判性思维。
|
20天前
|
机器学习/深度学习 人工智能 编解码
全面升级的“新清影”,给AI生成视频带来了哪些新玩法?
智谱清言App近日上线了“新清影”,并开源了最新的图生视频模型CogVideoX v1.5。相比之前的版本,“新清影”在视频分辨率、生成速度、多通道生成能力和模型性能等方面均有显著提升,支持生成10秒、4K、60帧的超高清视频。此外,即将上线的音效功能将进一步提升视频的逼真度和实用性,标志着AI视频创作进入“有声时代”。这些改进使得内容创作变得更加高效和便捷,为创作者提供了更多可能性。
|
22天前
|
存储 人工智能 安全
【通义】AI视界|苹果停止签署iOS 18.0.1,升级用户无法降级
本文由通义自动生成,涵盖24小时内精选的五条科技资讯:奥特曼谈OpenAI未来发展方向,ChatGPT新搜索功能上线遇故障,Perplexity AI选举搜索面临挑战,马斯克谈特斯拉造手机的可能性,以及苹果停止签署iOS 18.0.1。更多精彩内容,欢迎访问通通知道。
|
10天前
|
存储 人工智能 大数据
面向 AI 的存储基础设施升级
AI 与大数据融合化是大势所趋,企业可以通过大数据技术收集和存储大量数据,进行一站式计算分析和数据治理,以便安全、精确、高效、智能地应用数据。在这个话题中,我们将会介绍阿里云全栈存储数据基础设施如何支撑 AI 场景的创新与实践,并带来全新一代存储产品的重磅发布,帮助企业高效数字创新。
|
21天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置选项,包括CPU+GPU、CPU+FPGA等组合,支持高性能计算需求。本文汇总了阿里云GPU服务器的价格信息,涵盖NVIDIA A10、V100、T4、P4、P100等多款GPU卡,适用于人工智能、机器学习和深度学习等场景。详细价格表和实例规格见文内图表。
|
3天前
|
机器学习/深度学习 人工智能 算法
AI技术在医疗诊断中的应用及前景展望
本文旨在探讨人工智能(AI)技术在医疗诊断领域的应用现状、挑战与未来发展趋势。通过分析AI技术如何助力提高诊断准确率、缩短诊断时间以及降低医疗成本,揭示了其在现代医疗体系中的重要价值。同时,文章也指出了当前AI医疗面临的数据隐私、算法透明度等挑战,并对未来的发展方向进行了展望。
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
2024年,AI大模型在软件开发领域的应用正重塑传统流程,从自动化编码、智能协作到代码审查和测试,显著提升了开发效率和代码质量。然而,技术挑战、伦理安全及模型可解释性等问题仍需解决。未来,AI将继续推动软件开发向更高效、智能化方向发展。
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
AI在医疗领域的应用及其挑战
【10月更文挑战第34天】本文将探讨人工智能(AI)在医疗领域的应用及其面临的挑战。我们将从AI技术的基本概念入手,然后详细介绍其在医疗领域的各种应用,如疾病诊断、药物研发、患者护理等。最后,我们将讨论AI在医疗领域面临的主要挑战,包括数据隐私、算法偏见、法规合规等问题。
40 1
|
7天前
|
机器学习/深度学习 人工智能 算法
AI在医疗诊断中的应用
【10月更文挑战第42天】本文将探讨人工智能(AI)在医疗诊断中的应用,包括其优势、挑战和未来发展方向。我们将通过实例来说明AI如何改变医疗行业,提高诊断的准确性和效率。
下一篇
无影云桌面