阿里云弹性GPU服务架构和案例分析

本文涉及的产品
函数计算FC,每月15万CU 3个月
简介: 阿里云异构计算产品研发高级专家龙欣在2017年12月7日云栖大会苏州峰会上做了题为《阿里云异构计算平台——加速AI智能创新》的主题演讲。当今人工智能的发展迅速,阿里异构平台很好的应对了这一发展趋势。其中异构计算平台在布局和设计上的思考、阿里云的弹性GPU服务架构以及案例分析以及阿里云的FPGA云计算架构及场景使用等内容都是首次对外详细剖析,很有价值。

阿里云异构计算产品研发高级专家龙欣在2017年12月7日云栖大会苏州峰会上做了题为《阿里云异构计算平台——加速AI智能创新》的主题演讲。当今人工智能的发展迅速,阿里异构平台很好的应对了这一发展趋势。其中异构计算平台在布局和设计上的思考、阿里云的弹性GPU服务架构以及案例分析以及阿里云的FPGA云计算架构及场景使用等内容都是首次对外详细剖析,很有价值。
以下为精彩视频内容整理:

AI智能爆发关键因素分析

2015年出现的残差resnet网络,使得网络的参数和深度,产生了翻天覆地的变化,也使算法更加智能化。到2020年的时候商业上积累的数据将会是4.4个ZB,相当于现在的数据要翻10倍,这为大数据的发展积累了大量的学习材料。后摩尔时代的算力(异构计算)也增长迅速。数据,算法以及高速并行计算系统,这三者在一起产生化学反应,使得人工智能和深度学习在日常生活中的渗透。阿里云的异构平台主要是在异构计算方面构建了一个平台,并在企业做发展和推广。

阿里云的方案?

异构计算主要是指使用不同的计算单元组成系统的计算方式,常见的计算单元类型包括CPU、GPU、FPGA、ASIC等。因为GPU、FPGA和ASIC能满足人工智能对计算能力的要求,所以目前人工智能芯片格局的是:GPU,FPGA,ASIC三分天下。
人工智能的发展有两个业务阶段:第一个阶段是训练阶段,就是在后台去准备自己的业务模型;第二个阶段是推理服务,这是真正变现的阶段。这两个阶段对计算力、模型以及平台的要求是有很大区别。训练服务是计算密集型,只在垂直上扩展,使用离线服务,关注吞吐量,主要针对高精度浮点数据。推理服务是服务密集型,在水平上扩展,使用在线服务,对延迟要求比较高,主要是针对整型快速计算。
阿里云全新一代异构计算加速引擎是一个面向多场景的异构计算加速平台,它的使用涉及三个领域:
(1) 图形图像:影视渲染、3D设计、视频转码;
(2) 机器学习:人脸识别、视频识别、车辆识别、自动驾驶、机器翻译等;
(3) 科学计算:气象预测、油藏模拟、基因工程、计算金融。
为了能支持这么多的应用场景,异构平台使用了非常强健的基础设施,包括第二代的Apsara vSwitch网络,英伟达最新的v100服务器以及xilins最新的VU9 FPGA芯片以及第三代的分布式存储技术。
阿里异构平台在全球也做了布局。如果企业想在海外部署自己的业务 ,可以在该平台上把自己公司的环境快速搬迁到海外,完成部署,而且搬迁的速度是以天为计的,能节省时间,帮助企业快速把业务扩展起来。
在市场中,阿里云异构平台具有很强大的核心竞争力。因为它提供了高可靠的基础设施、企业级异构产品以及全面的安全防护;提供面向高性能计算、AI训练以及高速图形离线渲染;提供丰富的场景化产品、多种虚拟化技术以及强大生态支撑;提供巨大的资源池,支援全球部署业务以及灵活购买方式。

阿里云弹性GPU服务架构和案例分析

阿里云推出的竞价实例能进一步降低企业使用GPU的成本。当企业的业务足够健壮灵活,能按时释放和申请,通过一个灵活的模式去竞价,可以达到1.8折的折扣,获得使用廉价资源的机会。
目前阿里云异构计算与NVIDIA深度学习研究院实现DLI平台与内容实现全球合作。而且阿里云的人工智能初创企业扶持计算-风池计划,是给人工智能初创企业提出一个定向扶持计划,为了帮助企业更好的发展。
1

这个异构平台是与阿里云所有生态模块全打通的,这是它的核心竞争力。通过各种组件的组合,使得它具备扶持一个行业的能力,帮助企业在云上搭建一套业务系统。
GPU作为一种计算芯片,它的优势非常明显,具有实时高速、并行计算、浮点计算能力强的特点。阿里云弹性GPU服务(EGS)就是将阿里云的弹性计算和GPU高速的并行异构的加速器组合在一起。EGS具备GPU所有的加速的能力,兼具阿里云弹性计算的特点,可适用于深度学习、视频转码、图形渲染、科学计算等场景。
EGS有两种计算实例:可视化计算实例和高性能计算实例。可视化计算实例有一种:GA1共享GPU,它能提供更细粒度的GPU实例,降低使用门槛和成本,而且能为可视化计算提供很好的性能保证。高性能计算实例有四种:GN4独享GPU,提供通用计算实例;GN5独享GPU,具有深度学习和高性能计算的强大算力;GN5i独享GPU,是专为深度学习推理现在服务定制的实例;GN6独享GPU,是专门为深度学习训练定制的实例。
下面介绍两个典型的EGS应用:
(1) 弹性GPU实例加速阿里云图像识别服务
TIM_20171213172635

这个实例把训练和推理放在阿里云的EGS服务之上,同时利用网络互通的能力以及离线训练和在线训练去完成在线图像识别的服务。
(2) 弹性GPU实例加速阿里云视频转码服务
3

在这个实例中异构平台只处理在线服务,企业把离线训练放在自己的模型中心,在线服务部署在阿里云上。像实时语音翻译,对时延有很强的的要求。当用户说完的时候,响应的时延不能超过几个毫秒,否则会出现卡顿的情况。这时候对时延要求高,对计算力要求低。
4

从图中可以看出以太网络随着包的增加,是一个指数的提升,而阿里云的基于升龙服务器的超级计算集群能保证在很大的传输数据字节的情况下,会减少时延的情况,提供非常低的时延,并且依然保持线性的伸缩。这个计算机集群还能实现扩容和性能的线性提升。
异构平台还提供了一些增值服务,包括弹性机器学习、专门针对广告推荐的XDL框架、还有EHPC平台,都是为了帮助平台上的一些创业公司或者是刚刚进入这个领域的公司,能迅速把自己的模型部署在异构平台的硬件底层之上,而不用去关心这些平台的运维。这能节约这些公司的运维成本,缩短上云时间以及减少上云的准备。

FPGA云计算结构和场景分析

FPGA与GPU相比,它的编程门槛更高,但是GPU的算法是固定的,对于非标准的数据来说,GPU就不那么适用了。随着数据精度的一路往下降,GPU就显得跟不上了。这时候FPGA加速器就应运而生,因为它的算法不固定,而且最低可以处理一个比特的数据。所以FPGA的硬件可编程和硬件加速能力就得到了越来越多云厂商的青睐和部署。
阿里云也在部署了自己的FPGA服务器——FPGA as A SERVICE(FaaS),它有三个设计目标:
(1) 引入FPGA作为弹性计算产品输出。实现FPGA硬件的平台化和系统化,实现FPGA应逻辑的统一接口,并且符合云安全运行环境。
(2) 在云上打造整套FPGA开发环境。实现统一的云上开发平台以及安全的IP部署渠道。
(3) 建立FPGA IP生态和市场。与第三方合作,开发云上的FPGA IP;与集团合作,把FPGA加速业务通过云产品输出。
FaaS包括三个组件:硬件基础设施,包括FPGA云服务器,硬件加速开发,部署平台(Intel、Xilinx);云上配套开发环境,包括厂商配套软件(Quartus、Vivado),第三方EDA软件(仿真、模拟);FPGA IP开发生态,包括金融计算、基因计算、压缩加解密、硬件仿真设计、深度学习(预测/训练)等。这样FaaS能提供全面加速平台,在FPGA的IP开发、部署和发布的各个环节提供高度的兼容性和一致性,并且通过FPGA IP市场配置和扩大FPGA生态。
TIM_20171213172823

上面是FaaS的FPGA IP的分发流程。FPGA IP的开发等同于芯片开发,一个最核心的部分就是如何保护它的IP。IP的分发要保证不能让对手、消费者拿到企业的源代码。阿里云做了硬件的隔离,使用户只有使用加速能力的权利,而不能拿到企业的核心加速库。
异构平台的FPGA云上开发环境能保证企业在线上和线下有一致的体验,保证合企业和IP开发者能快速的上云,把库快速推出,在云或者FPGA市场上输出给用户。
现在有很多的FPGA镜像市场加入到了阿里云中,包括硬件仿真、金融算法、基因、深度学习、压缩和加解密等,这丰富了FaaS的使用场景。
下面介绍两个FaaS的典型应用场景:
(1) 时序数据库(HiTSDB)
目前在大数据领域中,超过一半的物联网(IoT)设备监控系统,企业能源管理系统(EMS),生产安全监控系统,电力检测系统等行业使用时序数据。阿里云HiTSDB是一种高性能,低成本,稳定可靠的在线时序数据库服务。利用FaaS高并行度的优势,提升HiTSDB的数据处理能力。目前它的单路数据吞吐性能是单核CPU的30倍以上。
(2) 数据压缩(GZIP)
GZIP是一种文件压缩标准,其核心的算法是Huffman编码和LZ77,能大幅度的减少文件本身大小和占用的存储空间,已经成为当今Internet上普遍使用的数据压缩格式。阿里云FaaS平台支持OpenCL以及RTL两种开发流程,在同样压缩比的情况下,其吞吐能力较CPU有10倍的提升。

以上由云栖社区小组younger123整理,毛鹤校审,郭雪梅编辑。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
29天前
|
弹性计算 运维 监控
阿里云云服务诊断工具:合作伙伴架构师的深度洞察与优化建议
作为阿里云的合作伙伴架构师,我深入体验了其云服务诊断工具,该工具通过实时监控与历史趋势分析,自动化检查并提供详细的诊断报告,极大提升了运维效率和系统稳定性,特别在处理ECS实例资源不可用等问题时表现突出。此外,它支持预防性维护,帮助识别潜在问题,减少业务中断。尽管如此,仍建议增强诊断效能、扩大云产品覆盖范围、提供自定义诊断选项、加强教育与培训资源、集成第三方工具,以进一步提升用户体验。
674 243
|
18天前
|
机器学习/深度学习 存储 人工智能
基于AI的实时监控系统:技术架构与挑战分析
AI视频监控系统利用计算机视觉和深度学习技术,实现实时分析与智能识别,显著提升高风险场所如监狱的安全性。系统架构包括数据采集、预处理、行为分析、实时决策及数据存储层,涵盖高分辨率视频传输、图像增强、目标检测、异常行为识别等关键技术。面对算法优化、实时性和系统集成等挑战,通过数据增强、边缘计算和模块化设计等方法解决。未来,AI技术的进步将进一步提高监控系统的智能化水平和应对复杂安全挑战的能力。
|
2月前
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器架构有啥区别?X86计算、Arm、GPU异构、裸金属和高性能计算对比
阿里云ECS涵盖x86、ARM、GPU/FPGA/ASIC、弹性裸金属及高性能计算等多种架构。x86架构采用Intel/AMD处理器,适用于广泛企业级应用;ARM架构低功耗,适合容器与微服务;GPU/FPGA/ASIC专为AI、图形处理设计;弹性裸金属提供物理机性能;高性能计算则针对大规模并行计算优化。
|
2月前
|
人工智能 并行计算 流计算
【AI系统】GPU 架构与 CUDA 关系
本文介绍了英伟达GPU硬件基础概念,重点解析了A100 GPU架构中的GPC、TPC、SM等组件及其功能。接着深入讲解了CUDA并行计算平台和编程模型,特别是CUDA线程层次结构。最后,文章探讨了如何根据CUDA核心数量、核心频率等因素计算GPU的算力峰值,这对于评估大模型训练的算力需求至关重要。
64 2
|
2月前
|
机器学习/深度学习 人工智能 并行计算
【AI系统】GPU 架构回顾(从2010年-2017年)
自1999年英伟达发明GPU以来,其技术不断革新。本文概述了从2010年至2024年间,英伟达GPU的九代架构演变,包括费米、开普勒、麦克斯韦、帕斯卡、伏特、图灵、安培、赫柏和布莱克韦尔。这些架构不仅在游戏性能上取得显著提升,还在AI、HPC、自动驾驶等领域发挥了重要作用。CUDA平台的持续发展,以及Tensor Core、NVLink等技术的迭代,巩固了英伟达在计算领域的领导地位。
50 1
|
2月前
|
机器学习/深度学习 人工智能 缓存
【AI系统】GPU 架构回顾(从2018年-2024年)
2018年发布的Turing图灵架构,采用12nm工艺,包含18.6亿个晶体管,大幅提升了PC游戏、专业图形应用及深度学习推理的效率与性能。Turing引入了RT Core和Tensor Core,分别用于实时光线追踪和加速深度学习计算,支持GDDR6内存,显著提升了数据传输速率和效率。此外,Turing架构还支持NVLink 2.0,增强了多GPU协同工作的能力,适用于复杂的图形渲染和深度学习任务。
65 0
【AI系统】GPU 架构回顾(从2018年-2024年)
|
24天前
|
弹性计算 Cloud Native Serverless
阿里云 SAE 邀您参加 Serverless 高可用架构挑战赛,赢取精美礼品
阿里云 SAE 邀您参加 Serverless 高可用架构挑战赛,赢取精美礼品。
|
2月前
|
人工智能 Cloud Native 算法
|
2月前
|
人工智能 运维 网络架构
阿里云引领智算集群网络架构的新一轮变革
11月8日至10日,CCF ChinaNet(中国网络大会)在江苏张家港召开,众多院士、教授和技术领袖共聚一堂,探讨网络未来发展方向。阿里云研发副总裁蔡德忠发表主题演讲,展望智算技术发展趋势,提出智算网络架构变革的新思路,发布高通量以太网协议和ENode+超节点系统规划,引起广泛关注。阿里云HPN7.0引领智算以太网生态蓬勃发展,成为业界标杆。未来,X10规模的智算集群将面临新的挑战,Ethernet将成为主流方案,推动Scale up与Scale out的融合架构,提升整体系统性能。
|
2月前
|
弹性计算 人工智能 Serverless
阿里云ACK One:注册集群云上节点池(CPU/GPU)自动弹性伸缩,助力企业业务高效扩展
在当今数字化时代,企业业务的快速增长对IT基础设施提出了更高要求。然而,传统IDC数据中心却在业务存在扩容慢、缩容难等问题。为此,阿里云推出ACK One注册集群架构,通过云上节点池(CPU/GPU)自动弹性伸缩等特性,为企业带来全新突破。