PAI年度巨献:在线推理加速优化,降低推理GPU所需资源

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 在线推理是抽象的算法模型触达具体的实际业务的最后一公里,在这个环节中,这些已经是大家共识的痛点和诉求:1. 任何线上产品的用户体验都与服务的响应时长成反比,复杂的模型如何极致地压缩请求时延?2. 模型推理通常是资源常驻型服务,如何通过提升服务单机性能从而增加QPS同时大幅降低资源成本?3. 端-边-云是现在模型服务发展的必然趋势,如何让离线训练的模型“瘦身塑形”从而在更多设备上快速部署使用?为了解决这些诉求,高性能在线推理优化框架PAI-Blade在公共云正式和大家见面了!

背景

在线推理是抽象的算法模型触达具体的实际业务的最后一公里,PAI已经对外推出了PAI-EAS在线模型服务,帮助大家解决模型服务化的问题,目前已经吸引数百家企业入驻。但是在这个环节中,仍然还有这些已经是大家共识的痛点和诉求:

1.任何线上产品的用户体验都与服务的响应时长成反比,复杂的模型如何极致地压缩请求时延?
2.模型推理通常是资源常驻型服务,如何通过提升服务单机性能从而增加QPS同时大幅降低资源成本?
3.端-边-云是现在模型服务发展的必然趋势,如何让离线训练的模型“瘦身塑形”从而在更多设备上快速部署使用?

因此,在线推理的加速优化成为了AI界的重要研究领域。在前段时间,有不少用户看到了天猫精灵业务如何使用机器学习PAI进行模型推理优化,来咨询如何在自己的业务中get同款技术红利,今天为大家带来的这个好消息就是,高性能在线推理优化框架PAI-Blade终于在公共云和大家见面啦!

PAI-Blade发展历程

PAI-Blade是阿里云机器学习团队研发的面向通用场景的深度学习推理优化框架。经过1年多的发展,在阿里集团内部已经服务了包括安全部、AI Lab、阿里妈妈、搜索、达摩院、ICBU、CCO、新零售、菜鸟、X Lab等众多部门,满足集团内不同业态丰富业务场景下的多样化需求,模型涵盖了图像识别、目标检测、OCR检测识别、自然语言处理、语音识别、智能问答、人机对话、搜索、推荐、视频处理、文本分类等各类大家所熟知的AI子领域。

PAI-Blade对内首先需要服务好规模体量大、对RT/QPS要求严格、以及高影响力的关键业务。典型的案例比如阿里机器翻译,需支持21个语种、48个语向,在整个电商的完整链路上提供包括SEO,商品详情、搜索、评论,实时沟通等多个场景,针对集团内众多国际化业务提供全面的实时翻译能力,以及在大型会议上提供实时语音翻译、同声传译服务等。每天提供近十亿级的在线翻译服务,峰值数万QPS的语句翻译能力。如此规模体量的在线服务对于响应时间、吞吐量和资源成本都是极其敏感的。经过PAI-Blade的优化,实现2-3倍,在有些场景下甚至更高的性能提升。目前可以稳定支持200ms以内的响应时延,日调用7.5亿次,5000亿字符的并行处理能力,以及双11期间数倍于此的服务需求。

同样体量较大的业务还包括安全相关服务、搜索、推荐、天猫精灵等。业务的细节就不一一展开了,总的来说,对于规模体量较大的业务,优化所涉及的模型和热点虽有很多不同,但相似的是都有众多的服务场景和快速的模型迭代,以下整理了部分业务效果数据:

业务/部门 模型类别 模型 加速比
菜鸟无人车 (2D&3D)
目标检测
自研模型 RT 3.9x
ICBU 目标检测 自研检测模型 模型RT加速2x 
大知识产权业务 目标检测 RefineDet,caffeNet,自研模型 QPS 2.5x
天猫精灵 ASR 自研BERT模型 QPS 2.8x
CCO阿里店小蜜,AliOS车载场景等 自然语言处理 自研模型 QPS 3.43x
新零售业务 文本分类 TextCNN QPS 1.3x
安全部鉴黄业务 内容识别 自研模型 QPS 5.48x
视频搜索业务 视频 自研模型 QPS 1.8x

通常来说,不同的业务场景具有不同的需求层次。而PAI以Blade为核心,提供了一整套从模型优化,到一键式在线部署(包括部署环节优化),到离线runtime推理,到线上热点分析、tuning的全栈优化加速解决方案。在集团内部我们提供了不同层次,多种形式的接入方式。经过众多业务场景赋能过程中的反复打磨,PAI-Blade除了能够把针对不同业务的优化能力提炼沉淀到自研框架中,还锻造了一整套工程体系,努力简化用户的使用链路和上手成本。基于这些最佳实践,我们将全栈的推理优化能力进行了抽象和封装,并于2019岁末,以非常简单易用的形态呈现在PAI公共云产品中,正式开始对外公测,欢迎大家随时来撩,当前在上海Region免费试用。

极简试用体验

  1. 在PAI控制台您可以一键上传您的深度学习模型,支持多种模型格式,包括

    • Tensorflow (saved model or frozen pb)
    • Keras(.h5)
    • Caffe
    • Onnx

模型上传.gif

  1. 快速体验在不同卡型(Nvidia P4/Nvidia T4/Nvidia P100/Nvidia V100)上基于不同优化策略(O1无损优化、O2量化压缩优化)的优化效果。模型优化.gif

    1. 需要更高优化效果的用户,也可以直接在我们提供的高级配置框来提供更多模型信息
    2. 优化过程通常在几分钟即可完成,您可以在性能加速数据列看到优化后模型的latency加速的数据
  2. 每次优化任务都会产出一个新的模型挂在原模型的子模型列表中。之后根据不同策略下产出模型的效果对比,您可以直接选择优化效果最优的模型部署至PAI-EAS服务,这里需要注意先新建和优化时GPU卡相同的资源组再进行模型部署优化模型部署.gif
  3. 我们提供了封装好的Blade服务调用客户端SDK,服务部署完成后可以直接使用SDK进行高效服务调用。

敬请期待

  1. 支持优化后模型的自定义Processor开发
  2. 支持更多通用模型框架,让更多复杂信息对用户透明,降低使用门槛
  3. 通过简单易用的使用方式提供更多层次更灵活的优化策略

更多精彩

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 前端开发
【机器学习】FlyFlowerSong【人工智能】资源指南
FlyFlowerSong是一个创新的音乐合成与处理项目,它利用先进的机器学习算法,为用户提供了一个简单而有趣的音乐创作平台。作为人工智能领域的技术自媒体创作者,我整理了关于FlyFlowerSong的完整教程、论文复现指南以及demo项目源代码,旨在帮助开发者、音乐爱好者以及AI研究者深入探索这一领域。
27 1
|
3月前
|
机器学习/深度学习 人工智能 运维
人工智能平台PAI使用问题之一直显示"正在等待在云端的gateway资源",该如何处理
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
3月前
|
弹性计算 Serverless 文件存储
函数计算产品使用问题之如何使用GPU资源
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
3月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI使用问题之部署时是否可以自定义资源的区域
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能平台PAI产品使用合集之进入DSW后,如何把工作环境切换为GPU状态
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
4月前
|
运维 Serverless 文件存储
Serverless 应用引擎产品使用合集之函数实例运行期间相关的依赖资源(vcpu、临时磁盘、GPU)是否会随函数运行完毕而释放
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
|
4月前
|
机器学习/深度学习 算法 TensorFlow
算法金 | 只需十四步:从零开始掌握Python机器学习(附资源)
```markdown ## 摘要 全网同名「算法金」的作者分享了一篇针对Python机器学习入门的教程。教程旨在帮助零基础学习者掌握Python和机器学习,利用免费资源成为实践者。内容分为基础篇和进阶篇,覆盖Python基础、机器学习概念、数据预处理、科学计算库(如NumPy、Pandas和Matplotlib)以及深度学习(TensorFlow、Keras)。此外,还包括进阶算法如SVM、随机森林和神经网络。教程还强调了实践和理解最新趋势的重要性。
61 0
算法金 | 只需十四步:从零开始掌握Python机器学习(附资源)
|
4月前
|
机器学习/深度学习 分布式计算 监控
在大数据模型训练中,关键步骤包括数据收集与清洗、特征工程、数据划分;准备分布式计算资源
【6月更文挑战第28天】在大数据模型训练中,关键步骤包括数据收集与清洗、特征工程、数据划分;准备分布式计算资源,选择并配置模型如深度学习架构;通过初始化、训练、验证进行模型优化;监控性能并管理资源;最后保存模型并部署为服务。过程中要兼顾数据隐私、安全及法规遵守,利用先进技术提升效率。
64 0
|
4月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习】CLIP模型在有限计算资源下的性能探究:从数据、架构到训练策略
【机器学习】CLIP模型在有限计算资源下的性能探究:从数据、架构到训练策略
268 0
|
5月前
|
Kubernetes 监控 调度
Kubernetes(K8s)与虚拟GPU(vGPU)协同:实现GPU资源的高效管理与利用
本文探讨了如何使用Kubernetes和虚拟GPU(vGPU)实现异构GPU的协同调度。Kubernetes是一个容器编排平台,通过设备插件、资源规格、调度器扩展和节点标签实现GPU资源管理。vGPU技术允许物理GPU资源在多个虚拟机或容器中共享。文章详细介绍了vGPU的部署配置步骤,并提出了GPU资源调度、负载均衡和监控调优的方法。强调虚拟GPU的性能取决于硬件和驱动支持,合理配置能提供高性能计算环境。参考文献包括Kubernetes和NVIDIA官方文档及相关研究论文。

热门文章

最新文章

下一篇
无影云桌面