升级3:飞天AI推理加速引擎|学习笔记

简介: 快速学习升级3:飞天AI推理加速引擎

开发者学堂课程【如何利用飞天AI解决方案帮助升级异构计算的AI架构:升级3:飞天AI推理加速引擎】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/648/detail/10749


升级3:飞天AI推理加速引擎


内容介绍:

一、基于异构计算 AI 应用架构的问题三

二、AIACC-Inference 架构

三、高性能算子库底层性能优化技术

四、客户案例


一、基于异构计算 AI 应用架构的问题三

在解决训练问题之后,又遇到一个推理的问题,会有客户反映推理延迟太高,可能需要实时性的要求,推理可能在10毫秒之内就要返回,但往往推理时达不到用户的需求,其中一个重要原因是 GPU 计算能力不能充分发挥,GPU的利用率低,另外一个问题是对 PyTorch 没有做优化;第二个问题是客户场景多样化,不同的计算框架、不同的场景都要做优化;第三个问题是缺乏统一推理优化引擎,Tensorflow、TensorRT、Serving、PyTorch、MXNET 都有自己的特定引擎,所以遇到不同客户不同需求时,要针对不同的场景,不同的引擎做优化。所以升级3是飞天 AI 推理加速引擎。AIACC 推理加速引擎(AIACC-Inference),它支持 AIACC-Tensorflow、AIACC-PyTorch、AIACC-MXNET、AIACC-Kaldi 的统一优化。


二、AIACC-Inference架构

1.png

AIACC-Inference 架构如下图所示,Tensorflow、PyTorch、MXNET、Kaldi 的模型都可以通过框架做自动的优化,Tensorflow 直接通过模型的Loader来做模型的自动优化,包括子图分割、层融合优化以及量化优化,最终转化成含TensorRT 的高性能算子库,含有自行研发的 keno,PyTorch、MXNET、Kaldi 先通过模型的转换,转换成 ONNX 的模型,对其进行自动优化,最终通过子图分割、层融合优化以及量化优化之后,转化成高性能算子库的优化,最终只需要对高性能算子库做一份底层优化的代码,就可以满足这些优化的需求。


三、高性能算子库底层性能优化技术

优化技术主要针对 GPU 底层的优化,包括数据分块优化,将合适的数据分块,减少矩阵元素 load 次数;缓存优化,将数据分块放入共享内存、寄存器,双缓冲区,计算前先 load 下一个块,避免 bankconflict 性能恶化、数据布局偏置;同时访存带宽优化,每个线程读多个数据,合并访问,提高显存带宽利用率;计算优化,计算、访存重叠,隐藏数据访问开销,同时控制单线程寄存器数量,提高并行度;自动参数搜索,自动找到最合适的优化方式;优化结果,最终卷积性比 TensorRT6提升到1.3~2.4倍。

1.png


四、客户案例

客户案例一是加速视频超分推理性能视频超分配置是T4GPU,性能优化包括把视频解码移植到 GPU、前后处理移植到GPU、自动凑 Batch、做卷积深度优化,最终性能提升到2.7倍,QBS 从之前的150提升到现在的400多。

1.png

客户案例二是加速图像合成推理性能,性能优化包括前后处理移植到 GPU,自动凑 Batch,卷积深度优化,最终整体性能提升到4倍。

1.png

客户案例三是加速 CTR 预估推理性能,模型是 Wide&Deep 模型,配置是 M40GPU,性能优化包括流水线优化,模型拆分,子模型分别优化,最终性能提升到6.1倍

1.png

客户案例四是加速 NLP 推理性能,模型是 Bert 模型,配置是 T4GPU,之前的 QBS 是100,优化后可以提升到350,性能提升到3.3倍。

1.png

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
4月前
|
人工智能 新制造 云栖大会
TsingtaoAI亮相云栖大会,AI大模型赋能传统制造业焕新升级
2025年9月24日,杭州云栖小镇,2025云栖大会盛大开幕。作为全球AI技术与产业融合的重要平台,本届大会以“AI驱动产业变革”为主题,集中展示大模型技术在各领域的创新应用。 其中,由西湖区商务局牵头组织的“AI大模型应用与产业融合”专场论坛成为大会亮点之一,吸引了来自政府、企业及投资机构的百余名代表参与。 在论坛上,TsingtaoAI作为制造业智能化转型的代表企业,分享了在具身智能-制造企业的AI应用实践。
205 1
|
存储 人工智能 安全
智存跃迁,阿里云存储面向 AI 升级全栈数据存储能力
一文总览阿里云存储产品创新与进展!
1124 0
|
4月前
|
人工智能 编解码 搜索推荐
AI智能换背景,助力电商图片营销升级
电商产品图换背景是提升销量与品牌形象的关键。传统抠图耗时费力,AI技术则实现一键智能换背景,高效精准。本文详解燕雀光年AI全能设计、Canva、Remove.bg等十大AI工具,涵盖功能特点与选型建议,助力商家快速打造高质量、高吸引力的商品图,提升转化率与品牌价值。(238字)
476 0
|
4月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
376 0
|
4月前
|
存储 人工智能 搜索推荐
拔俗AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教融合大语言模型、教育知识图谱、多模态感知与智能体技术,重构“教、学、评、辅”全链路。通过微调LLM、精准诊断错因、多模态交互与自主任务规划,实现个性化教学。轻量化部署与隐私保护设计保障落地安全,未来将向情感感知与教育深度协同演进。(238字)
474 0
|
4月前
|
机器学习/深度学习 人工智能 搜索推荐
拔俗AI学伴智能体系统:基于大模型与智能体架构的下一代个性化学习引擎
AI学伴智能体系统融合大模型、多模态理解与自主决策,打造具备思考能力的个性化学习伙伴。通过动态推理、长期记忆、任务规划与教学逻辑优化,实现千人千面的自适应教育,助力因材施教落地,推动教育公平与效率双提升。(238字)
628 0
|
4月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1070 51
|
4月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
593 30