阿里云发布异构计算平台,只是为了人工智能吗?

简介: 阿里云发布异构计算平台,只是为了人工智能吗?

大约三个月前,一个朋友找到我,托我找找认识的渠道采购上万片AMD显卡。我询了一圈总代,得到的答复竟然是高性能AMD显卡全国断货!

众所周知,GPU是人工智能AI服务器的核心组件,因为深度学习、推理所需要的复杂计算,可以充分发挥GPU上千个计算单元并行计算的能力,降低成本、提高效率。或许,是人工智能大热,导致高性能显卡全国断货?

实际上,2017年7月,国务院印发《新一代人工智能发展规划》,人工智能从行业方向层面被提至国家战略层面。

整个产业都在思考,我们应该做什么?怎么做?

从珠穆朗玛到青藏高原


9月12日,阿里云宣布推出全新一代异构计算加速平台,在业界第一次覆盖了包括AMD、NVidia的GPU和Intel、XILINX的FPGA在内的所有6款主流异构实例。

image.png

公有云服务商升级计算产品并不奇怪,何况如今人工智能大热,国家鼓励新旧动能转换,鼓励产业升级。

以往,人工智能这样的复杂应用计算通常需要高性能计算(HPC)服务器,甚至提供集群计算服务的超算中心来完成。特别是HPC产业也已经开发并推出了越来越多的GPU异构HPC来满足AI市场需求。

但问题在于,传统超算中心的使用门槛比较高,而自购高性能计算软硬件,对于很多人工智能初创企业来说,也不现实。从这一角度,即便是传统超算中心,也已经把云化高性能计算集群,特别是云化异构HPC满足更广泛的市场需求提上了议事日程。

不过,传统超算中心的云化过程必然是漫长的,因为传统市场的保有量必然会延缓其转型的紧迫性。相对而言,阿里云这样的云服务商提供包括E-HPC全新高性能计算实例在内的阿里云异构计算家族和平台,相当于开拓一片全新的市场,自然能动性要高很多。

这里引用一段阿里云高性能计算研发负责人何万青博士的话:“如果把传统超算中心比作‘珠穆朗玛峰’,那么阿里云的E-HPC则是将高性能计算做更普惠的覆盖,成为高性能计算的‘青藏高原’。”

构建生态优势


其实,青藏高原和珠穆朗玛峰的区别,就在于面和点的区别。云计算相对于传统架构,最大的优势在于降低了计算门槛——不仅是使用者的门槛,还有开发者、ISV的门槛。而由此而形成生态之后,能量甚至会成几何倍数放大。

从这一角度,阿里云推出全新一代异构加速平台,必然不是为了和传统超算中心抢夺客户。在笔者的求证下,阿里云异构计算负责人张献涛介绍,异构加速平台的生态实际上有两个层面:一是图形计算、生命科学、材料力学、分子动力学等科研计算领域以及其他各行各业的ISV,让异构高性能计算得以普及;另一层面就是人工智能创业企业,而阿里云正在制定相关的扶持计划,为符合条件的人工智能初创企业提供高达百万元的资金辅助。

image.pngimage.gif

从左至右:龙欣、张献涛、何万青与媒体沟通

由此,我们可以回到一个业界一再思索的问题:为什么人工智能概念已经提出了60多年,直到最近人工智能市场才得以引爆呢?在笔者看来,答案很简单,因为云计算时代来临了。

众所周知,人工智能有三大要素:数据、计算力、算法。数据,得益于智能终端和传感器的普及,以及更为重要的后台云数据中心和云计算服务商大幅降低计算、存储成本,形成爆发式增长;算法方面,即便是今天谈的最多的深度学习、神经网络的算法,实际上在30年前就已经出现了,无论是科学家还是工程技术人员都在算法层面做了大量研究。

只有计算力,作为降低深度学习模型训练时间成本的关键,才恰恰是钻木取火、点燃人工智能火堆的最关键的那一根火绒草。无论是计算力还是数据的爆发增长,都得益于云计算。因此,在笔者看来,从平台到生态,云计算一定是人工智能未来发展的基石。

异构计算各不相同


回到技术层面,所谓“异构计算”到底为什么对人工智能如此关键?

在笔者看来,异构计算并不是什么新概念,因为我们的电脑早就在采用CPU和GPU两种不同架构的处理器,来加速完成大规模图形渲染这样的需求了。

实际上,GPU和AI关联起来,主要是因为AI等类神经网路的处理更多会牵涉到矩阵乘法和加法——这与GPU采用了上千个计算单元并行处理的架构以满足图形渲染的处理需求更为类似,因而使用GPU处理AI的效率较高且成本较低。

GPU最多可以提供5120个计算单元,而CPU最高的并行处理也只有32核,事实上,CPU更多用于控制和参数同步。因而两者配合使用,能达到AI计算最优的效果。

但GPU也不是所有异构计算的完美解决方案,因为GPU的能耗比较高,比如NVidia的P100、V100等主流AI用GPU,都面临这样的问题,在大规模集群计算的时候,尤为明显。因此,内建DSP区块和本地存储器的FPGA由于可获得较佳的能源效率,也是异构计算替代方案之一,但缺点是目前FPGA芯片的价格还比较昂贵。

值得一提的是,异构计算中GPU或FPGA的区别还不仅仅体现在能耗和价格上面。举个例子,相比GPU和CPU,FPGA因为其可编程特性,更适合非标数据位宽的人工智能、金融分析、基因匹配、物联网数据库等领域。阿里云异构产品研发负责人龙欣介绍,阿里云针对非标准位宽场景做了大幅优化,以物联网时序数据库为例,采用XILINX KU115*2 PFGA芯片的阿里云F2的处理效率可比CPU高30倍,为用户大幅降低硬件加速时间和成本。

而采用了NVidia Pascal架构P4图形处理器的GPU实例GN5i,提供最大45Tops INT8整型计算能力和11TFlops FP32单精度浮点计算能力,适用于深度学习在线推理(Inference)。在云计算架构下,用户可根据深度学习计算力的要求,进行GPU实例的“Scale-out”水平扩容或“Scale-up”垂直变配,分钟级即可完成实例的创建,包括一键部署TensorFlow、Caffe等主流深度学习框架,提供智能调度、自动运维、实时扩容等服务,经过测算,可有效降低人工智能在线服务成本50%以上。而基于AMD S7150*4 GPU的GA1异构计算产品,则主要面向高性能图形计算的需求。

无论如何,《新一代人工智能发展规划》中明确的,到2020年我国整个人工智能核心产业规模要超过1500亿元,总体技术和应用要与世界先进水平同步的要求,会因为阿里云的全新一代异构加速平台,而变得更加靠谱。

毕竟,新的平台和生态,代表了这个世界新的生产关系和活跃进取的人与企业。我们,需要新旧动能的转换来提高生产力,不是吗?

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
1月前
|
人工智能 JSON API
阿里云文档智能 & RAG解决方案:提升AI大模型业务理解与应用
阿里云推出的文档智能 & RAG解决方案,旨在通过先进的文档解析技术和检索增强生成(RAG)方法,显著提升人工智能大模型在业务场景中的应用效果。该方案通过文档智能(Document Mind)技术将非结构化文档内容转换为结构化数据,提取文档的层级树、样式和版面信息,并输出为Markdown和Json格式,为RAG提供语义分块策略。这一过程不仅解决了文档内容解析错误和切块丢失语义信息的问题,还优化了输出LLM友好的Markdown信息。方案的优势在于其多格式支持能力,能够处理包括Office文档、PDF、Html、图片在内的主流文件类型,返回文档的样式、版面信息和层级树结构。
107 2
|
2月前
|
存储 人工智能 自然语言处理
Elasticsearch Inference API增加对阿里云AI的支持
本文将介绍如何在 Elasticsearch 中设置和使用阿里云的文本生成、重排序、稀疏向量和稠密向量服务,提升搜索相关性。
76 14
Elasticsearch Inference API增加对阿里云AI的支持
|
8天前
|
存储 人工智能 缓存
官宣开源 阿里云与清华大学共建AI大模型推理项目Mooncake
近日,清华大学和研究组织9#AISoft,联合以阿里云为代表的多家企业和研究机构,正式开源大模型资源池化项目 Mooncake。
|
1月前
|
存储 人工智能 数据可视化
高效率,低成本!且看阿里云AI大模型如何帮助企业提升客服质量和销售转化率
在数字化时代,企业面临海量客户对话数据处理的挑战。阿里云推出的“AI大模型助力客户对话分析”解决方案,通过先进的AI技术和智能化分析,帮助企业精准识别客户意图、发现服务质量问题,并生成详尽的分析报告和可视化数据。该方案采用按需付费模式,有效降低企业运营成本,提升客服质量和销售转化率。
高效率,低成本!且看阿里云AI大模型如何帮助企业提升客服质量和销售转化率
|
2月前
|
人工智能 架构师
活动火热报名中|阿里云&Elastic:AI Search Tech Day
2024年11月22日,阿里云与Elastic联合举办“AI Search Tech Day”技术思享会活动。
活动火热报名中|阿里云&Elastic:AI Search Tech Day
|
25天前
|
人工智能 架构师
活动火热报名中|阿里云&Elastic:AI Search Tech Day
2024年11月22日,阿里云与Elastic联合举办“AI Search Tech Day”技术思享会活动。
177 9
|
1月前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
3天前
|
人工智能 Kubernetes Cloud Native
荣获2024年AI Cloud Native典型案例,阿里云容器产品技术能力获认可
2024全球数字经济大会云·AI·计算创新发展大会,阿里云容器服务团队携手客户,荣获“2024年AI Cloud Native典型案例”。
|
25天前
|
存储 人工智能 大数据
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
1月前
|
存储 人工智能 弹性计算
对话阿里云吴结生:AI时代,云上高性能计算的创新发展
在阿里云智能集团副总裁,弹性计算产品线负责人、存储产品线负责人 吴结生看来,如今已经有很多行业应用了高性能计算,且高性能计算的负载正呈现出多样化发展的趋势,“当下,很多基础模型的预训练、自动驾驶、生命科学,以及工业制造、半导体芯片等行业和领域都应用了高性能计算。”吴结生指出。