对话阿里云异构计算掌舵人:人工智能爆发三要素

简介: 计算,正在撬动人工智能产业这个千亿级的市场。 传统通用计算无法满足人工智能对爆发的计算能力需求,异构计算中GPU/FPGA等高并行、高密集的计算能力被认为是现阶段挑起人工智能产业的大梁。 异构计算是指不同类型的指令集和体系架构的计算单元组成的系统的计算方式,如“CPU+GPU”,"CPU+FPGA“等,”更适合深度学习、基因匹配、金融分析等计算密集型领域。

计算,正在撬动人工智能产业这个千亿级的市场。

传统通用计算无法满足人工智能对爆发的计算能力需求,异构计算中GPU/FPGA等高并行、高密集的计算能力被认为是现阶段挑起人工智能产业的大梁。

异构计算是指不同类型的指令集和体系架构的计算单元组成的系统的计算方式,如“CPU+GPU”,"CPU+FPGA“等,”更适合深度学习、基因匹配、金融分析等计算密集型领域。

昨天,阿里云对外展示了异构计算产品家族,将异构计算的能力带到云上对外服务。

image


会后,我们采访了阿里云异构计算掌舵人张献涛。

张献涛,花名旭卿,武汉大学信息安全博士,是Xen、KVM等多个开源虚拟化项目的主要贡献者,目前主要负责阿里云虚拟化技术、高性能计算产品、异构计算产品以及创新类型产品的技术和研发的团队。

在这次对话中,张献涛分享了对人工智能与异构计算的关系,以及对未来计算大战的思考。


人工智能爆发三要素:算法、计算力、数据

人工智能爆发有三要素:算法,计算力,数据。

张献涛指出,人工智能的概念提出60多年了,这几年才呈现出爆发的趋势,不单单是因为算法改进、数据积累,更重要的是计算能力的变革。一般企业都有自己的算法和数据,但在计算力的获取上一直有比较高的门槛。


image


异构计算被认为是更适合人工智能的计算形态,它的优点是具有比传统CPU并行计算更高效率和低延迟的计算性能,在处理物联网场景下的AI应用时,异构计算比CPU的处理效率高30倍以上。张献涛表示。

在过去,异构计算的采购、部署以及使用门槛对绝大多数企业、用户来说都很高,比如小量的用户基本上没有议价能力,特别是购买FPGA板卡,量少的话采购价格特别高。此外,交付周期是另一大痛点,从机型选择、硬件架构设计、供应商选择、机房选择、财务审批通常要几个月时间。采购之后型号就固定了,有新品出现只能追加预算购买,线下的GPU/FP又无法和线上服务打通。


image
面向多场景的异构计算加速平台

张献涛指出,云已经证明了是提供计算能力的最佳交付方式,所以把GPU/FPGA的计算能力放在云端对外服务是一件再自然不过的事。

“阿里云在短时间里先后推出弹性GPU和FPGA解决方案,目的就是降低异构计算资源使用的门槛,对人工智能有计算需求的企业可以随买随用。”张献涛表示,


云是计算能力的放大器

相比CPU,GPU有更高的并行度、更高的单机计算峰值、更高的计算效率;而FPGA则拥有更高的每瓦性能、非规整数据计算更高的性能、更低的设备互联延迟。

“云是计算能力的放大器,将GPU和FPGA解决方案部署在云端意味着优势的进一步放大。”张献涛介绍,虚拟化技术让GPU/FPGA的计算资源可以即买即用,弹性伸缩,无需担心性能瓶颈,还能以更低的价格享受到性能更强的GPU/FPGA计算能力。

image


同时,阿里云提供了从产品、服务、生态各维度的人工智能平台服务,满足企业在人工智能领域不同层次的需求,比如用户可以在阿里云异构平台上快速搭建TensorFlow深度学习框架,同时调用视频识别、图像识别、语音识别等服务,开发出类似ET工业大脑、环境大脑的应用服务,这跟此前需要东拼西凑还要运维的创业方式相比,体验和效率完全不同。

“我们提供了25/100Gb ROCE走RDMA协议直连,可以多机多卡,用非常多的GPU/FPGA设备集群来共同训练一个模型,大大减少用户训练的时间,从几周到一个月缩短到一天或者几个小时的级别。”张献涛强调。


异构计算的未来:GPU、FPGA、ASIC三分天下

从市场角度来看,GPU处理器占据了异构计算的主流地位,但对未来的趋势,张献涛表示,“随着FPGA的生态环境的建立和完善、ASIC芯片的逐渐成熟,未来异构计算领域会呈现GPU、FPGA、ASIC芯片三分天下的局面,GPU、FPGA、ASIC芯片都会有自己独特的特长和应用领域,有自己独特的客户群体。”


image
阿里云提供同时覆盖Intel和Xilinx两大FPGA厂商的解决方案

这也是张献涛团队专注的方向,接下来团队会发布包括8卡/16卡GPU产品、下一代的Volta架构的GPU产品、新一代的FGPA的产品,而ASIC芯片的产品上云也正在研发当中。

目前他所带领的团队主要有两个目标:一方面致力于让异构计算变成用户即买即用的计算资源,提供最为全面的异构计算产品方案;另一方面致力于让用户能够用好异构资源,充分发挥云上各个产品之间的统一调度能力,让阿里云在人工智能方面的服务更具备竞争力,把异构计算变成一种普惠的计算能力。

在10月11日举行的2017杭州云栖大会上,阿里云还将推出更多个性化的人工智能产品及服务,期间将有20余场人工智能相关的峰会和分论坛,涉及基础设施、AI基础技术、AI产品以及AI行业解决方案等领域。阿里巴巴及合作伙伴将分享AI在数据中心、电子商务、工业制造、城市管理、艺术设计等行业的前沿经验,并展示最新技术。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
4月前
|
机器学习/深度学习 人工智能 算法
【AAAI 2024】再创佳绩!阿里云人工智能平台PAI多篇论文入选
阿里云人工智能平台PAI发表的多篇论文在AAAI-2024上正式亮相发表。AAAI是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。论文成果是阿里云与浙江大学、华南理工大学联合培养项目等共同研发,深耕以通用人工智能(AGI)为目标的一系列基础科学与工程问题,包括多模态理解模型、小样本类增量学习、深度表格学习和文档版面此次入选意味着阿里云人工智能平台PAI自研的深度学习算法达到了全球业界先进水平,获得了国际学者的认可,展现了阿里云人工智能技术创新在国际上的竞争力。
|
2月前
|
机器学习/深度学习 人工智能 专有云
人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
15天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多样化的选择,包括CPU+GPU、CPU+FPGA等多种配置,适用于人工智能、机器学习和深度学习等计算密集型任务。其中,GPU服务器整合高性能CPU平台,单实例可实现最高5PFLOPS的混合精度计算能力。根据不同GPU类型(如NVIDIA A10、V100、T4等)和应用场景(如AI训练、推理、科学计算等),价格从数百到数千元不等。详情及更多实例规格可见阿里云官方页面。
|
26天前
|
机器学习/深度学习 存储 人工智能
【ACL2024】阿里云人工智能平台PAI多篇论文入选ACL2024
近期,阿里云人工智能平台PAI的多篇论文在ACL2024上入选。论文成果是阿里云与阿里集团安全部、华南理工大学金连文教授团队、华东师范大学何晓丰教授团队共同研发。ACL(国际计算语言学年会)是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台PAI在自然语言处理和多模态算法、算法框架能力方面研究获得了学术界认可。
|
2月前
|
机器学习/深度学习 人工智能 分布式计算
阿里云人工智能平台PAI论文入选OSDI '24
阿里云人工智能平台PAI的论文《Llumnix: Dynamic Scheduling for Large Language Model Serving》被OSDI '24录用。论文通过对大语言模型(LLM)推理请求的动态调度,大幅提升了推理服务质量和性价比。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
|
2月前
|
人工智能 运维 Cloud Native
|
2月前
|
机器学习/深度学习 SQL 人工智能
人工智能平台PAI使用问题之如何在阿里云服务器上搭建自己的人工智能
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【CVPR2024】阿里云人工智能平台PAI图像编辑算法论文入选CVPR2024
近期,阿里云人工智能平台PAI发表的图像编辑算法论文在CVPR-2024上正式亮相发表。论文成果是阿里云与华南理工大学贾奎教授领衔的团队共同研发。此次入选标志着阿里云人工智能平台PAI自主研发的图像编辑算法达到了先进水平,赢得了国际学术界的认可。在阿里云人工智能平台PAI算法团队和华南理工大学的老师学生们一同的坚持和热情下,将阿里云在图像生成与编辑领域的先进理念得以通过学术论文和会议的形式,向业界传递和展现。
|
4月前
|
人工智能 弹性计算 监控
在阿里云服务器上搭建自己的人工智能,可以按照以下步骤进行:
【2月更文挑战第22天】在阿里云服务器上搭建自己的人工智能,可以按照以下步骤进行:
418 6
下一篇
DDNS