升级3:飞天AI推理加速引擎|学习笔记

简介: 快速学习升级3:飞天AI推理加速引擎

开发者学堂课程【如何利用飞天AI解决方案帮助升级异构计算的AI架构:升级3:飞天AI推理加速引擎】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/648/detail/10749


升级3:飞天AI推理加速引擎


内容介绍:

一、基于异构计算 AI 应用架构的问题三

二、AIACC-Inference 架构

三、高性能算子库底层性能优化技术

四、客户案例


一、基于异构计算 AI 应用架构的问题三

在解决训练问题之后,又遇到一个推理的问题,会有客户反映推理延迟太高,可能需要实时性的要求,推理可能在10毫秒之内就要返回,但往往推理时达不到用户的需求,其中一个重要原因是 GPU 计算能力不能充分发挥,GPU的利用率低,另外一个问题是对 PyTorch 没有做优化;第二个问题是客户场景多样化,不同的计算框架、不同的场景都要做优化;第三个问题是缺乏统一推理优化引擎,Tensorflow、TensorRT、Serving、PyTorch、MXNET 都有自己的特定引擎,所以遇到不同客户不同需求时,要针对不同的场景,不同的引擎做优化。所以升级3是飞天 AI 推理加速引擎。AIACC 推理加速引擎(AIACC-Inference),它支持 AIACC-Tensorflow、AIACC-PyTorch、AIACC-MXNET、AIACC-Kaldi 的统一优化。


二、AIACC-Inference架构

1.png

AIACC-Inference 架构如下图所示,Tensorflow、PyTorch、MXNET、Kaldi 的模型都可以通过框架做自动的优化,Tensorflow 直接通过模型的Loader来做模型的自动优化,包括子图分割、层融合优化以及量化优化,最终转化成含TensorRT 的高性能算子库,含有自行研发的 keno,PyTorch、MXNET、Kaldi 先通过模型的转换,转换成 ONNX 的模型,对其进行自动优化,最终通过子图分割、层融合优化以及量化优化之后,转化成高性能算子库的优化,最终只需要对高性能算子库做一份底层优化的代码,就可以满足这些优化的需求。


三、高性能算子库底层性能优化技术

优化技术主要针对 GPU 底层的优化,包括数据分块优化,将合适的数据分块,减少矩阵元素 load 次数;缓存优化,将数据分块放入共享内存、寄存器,双缓冲区,计算前先 load 下一个块,避免 bankconflict 性能恶化、数据布局偏置;同时访存带宽优化,每个线程读多个数据,合并访问,提高显存带宽利用率;计算优化,计算、访存重叠,隐藏数据访问开销,同时控制单线程寄存器数量,提高并行度;自动参数搜索,自动找到最合适的优化方式;优化结果,最终卷积性比 TensorRT6提升到1.3~2.4倍。

1.png


四、客户案例

客户案例一是加速视频超分推理性能视频超分配置是T4GPU,性能优化包括把视频解码移植到 GPU、前后处理移植到GPU、自动凑 Batch、做卷积深度优化,最终性能提升到2.7倍,QBS 从之前的150提升到现在的400多。

1.png

客户案例二是加速图像合成推理性能,性能优化包括前后处理移植到 GPU,自动凑 Batch,卷积深度优化,最终整体性能提升到4倍。

1.png

客户案例三是加速 CTR 预估推理性能,模型是 Wide&Deep 模型,配置是 M40GPU,性能优化包括流水线优化,模型拆分,子模型分别优化,最终性能提升到6.1倍

1.png

客户案例四是加速 NLP 推理性能,模型是 Bert 模型,配置是 T4GPU,之前的 QBS 是100,优化后可以提升到350,性能提升到3.3倍。

1.png

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
1天前
|
机器学习/深度学习 人工智能 算法
PRefLexOR:MIT自进化AI框架上线!动态知识图谱+跨域推理,重塑自主思考
PRefLexOR 是 MIT 团队推出的新型自学习 AI 框架,结合偏好优化和强化学习,通过递归推理和多步反思,动态生成知识图谱,支持跨领域推理和自主学习。
27 2
PRefLexOR:MIT自进化AI框架上线!动态知识图谱+跨域推理,重塑自主思考
|
4天前
|
人工智能 Cloud Native Serverless
Serverless Devs 官网全新升级,Serverless+AI 重磅来袭
Serverless Devs 官网全新升级,Serverless+AI 重磅来袭
|
4天前
|
人工智能 运维 Serverless
Serverless GPU:助力 AI 推理加速
Serverless GPU:助力 AI 推理加速
|
5天前
|
人工智能 智能设计 物联网
阿里云设计中心携手金鸡电影节青年创作人,用AI技术加速电影工业升级
阿里云设计中心携手金鸡电影节青年创作人,用AI技术加速电影工业升级
|
5天前
|
人工智能 编解码 测试技术
阿里云通义千问发布多款AI大模型 多模态、长文本能力全面升级!
阿里云通义千问发布多款AI大模型 多模态、长文本能力全面升级!
|
5天前
|
人工智能
一图看懂| 2024AI云重点产品技术升级
一图看懂| 2024AI云重点产品技术升级
|
5天前
|
人工智能
【活动报名】​AI应用启航workshop:瓴羊+通义助力企业迈入AI驱动的数智营销时代
【活动报名】​AI应用启航workshop:瓴羊+通义助力企业迈入AI驱动的数智营销时代
|
4天前
|
人工智能 弹性计算 Ubuntu
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用
本文介绍了如何使用阿里云提供的DeepSeek-R1大模型解决方案,通过Chatbox和Dify平台调用百炼API,实现稳定且高效的模型应用。首先,文章详细描述了如何通过Chatbox配置API并开始对话,适合普通用户快速上手。接着,深入探讨了使用Dify部署AI应用的过程,包括选购云服务器、安装Dify、配置对接DeepSeek-R1模型及创建工作流,展示了更复杂场景下的应用潜力。最后,对比了Chatbox与Dify的输出效果,证明Dify能提供更详尽、精准的回复。总结指出,阿里云的解决方案不仅操作简便,还为专业用户提供了强大的功能支持,极大提升了用户体验和应用效率。
354 18
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用
|
4天前
|
人工智能 Java API
Spring AI与DeepSeek实战一:快速打造智能对话应用
在 AI 技术蓬勃发展的今天,国产大模型DeepSeek凭借其低成本高性能的特点,成为企业智能化转型的热门选择。而Spring AI作为 Java 生态的 AI 集成框架,通过统一API、简化配置等特性,让开发者无需深入底层即可快速调用各类 AI 服务。本文将手把手教你通过spring-ai集成DeepSeek接口实现普通对话与流式对话功能,助力你的Java应用轻松接入 AI 能力!虽然通过Spring AI能够快速完成DeepSeek大模型与。
119 11
|
4天前
|
人工智能 运维 架构师
Serverless + AI 让应用开发更简单,加速应用智能化
Serverless + AI 让应用开发更简单,加速应用智能化

热门文章

最新文章