大约三个月前,一个朋友找到我,托我找找认识的渠道采购上万片AMD显卡。我询了一圈总代,得到的答复竟然是高性能AMD显卡全国断货!
众所周知,GPU是人工智能AI服务器的核心组件,因为深度学习、推理所需要的复杂计算,可以充分发挥GPU上千个计算单元并行计算的能力,降低成本、提高效率。或许,是人工智能大热,导致高性能显卡全国断货?
实际上,2017年7月,国务院印发《新一代人工智能发展规划》,人工智能从行业方向层面被提至国家战略层面。
整个产业都在思考,我们应该做什么?怎么做?
从珠穆朗玛到青藏高原
9月12日,阿里云宣布推出全新一代异构计算加速平台,在业界第一次覆盖了包括AMD、NVidia的GPU和Intel、XILINX的FPGA在内的所有6款主流异构实例。
公有云服务商升级计算产品并不奇怪,何况如今人工智能大热,国家鼓励新旧动能转换,鼓励产业升级。
以往,人工智能这样的复杂应用计算通常需要高性能计算(HPC)服务器,甚至提供集群计算服务的超算中心来完成。特别是HPC产业也已经开发并推出了越来越多的GPU异构HPC来满足AI市场需求。
但问题在于,传统超算中心的使用门槛比较高,而自购高性能计算软硬件,对于很多人工智能初创企业来说,也不现实。从这一角度,即便是传统超算中心,也已经把云化高性能计算集群,特别是云化异构HPC满足更广泛的市场需求提上了议事日程。
不过,传统超算中心的云化过程必然是漫长的,因为传统市场的保有量必然会延缓其转型的紧迫性。相对而言,阿里云这样的云服务商提供包括E-HPC全新高性能计算实例在内的阿里云异构计算家族和平台,相当于开拓一片全新的市场,自然能动性要高很多。
这里引用一段阿里云高性能计算研发负责人何万青博士的话:“如果把传统超算中心比作‘珠穆朗玛峰’,那么阿里云的E-HPC则是将高性能计算做更普惠的覆盖,成为高性能计算的‘青藏高原’。”
构建生态优势
其实,青藏高原和珠穆朗玛峰的区别,就在于面和点的区别。云计算相对于传统架构,最大的优势在于降低了计算门槛——不仅是使用者的门槛,还有开发者、ISV的门槛。而由此而形成生态之后,能量甚至会成几何倍数放大。
从这一角度,阿里云推出全新一代异构加速平台,必然不是为了和传统超算中心抢夺客户。在笔者的求证下,阿里云异构计算负责人张献涛介绍,异构加速平台的生态实际上有两个层面:一是图形计算、生命科学、材料力学、分子动力学等科研计算领域以及其他各行各业的ISV,让异构高性能计算得以普及;另一层面就是人工智能创业企业,而阿里云正在制定相关的扶持计划,为符合条件的人工智能初创企业提供高达百万元的资金辅助。
从左至右:龙欣、张献涛、何万青与媒体沟通
由此,我们可以回到一个业界一再思索的问题:为什么人工智能概念已经提出了60多年,直到最近人工智能市场才得以引爆呢?在笔者看来,答案很简单,因为云计算时代来临了。
众所周知,人工智能有三大要素:数据、计算力、算法。数据,得益于智能终端和传感器的普及,以及更为重要的后台云数据中心和云计算服务商大幅降低计算、存储成本,形成爆发式增长;算法方面,即便是今天谈的最多的深度学习、神经网络的算法,实际上在30年前就已经出现了,无论是科学家还是工程技术人员都在算法层面做了大量研究。
只有计算力,作为降低深度学习模型训练时间成本的关键,才恰恰是钻木取火、点燃人工智能火堆的最关键的那一根火绒草。无论是计算力还是数据的爆发增长,都得益于云计算。因此,在笔者看来,从平台到生态,云计算一定是人工智能未来发展的基石。
异构计算各不相同
回到技术层面,所谓“异构计算”到底为什么对人工智能如此关键?
在笔者看来,异构计算并不是什么新概念,因为我们的电脑早就在采用CPU和GPU两种不同架构的处理器,来加速完成大规模图形渲染这样的需求了。
实际上,GPU和AI关联起来,主要是因为AI等类神经网路的处理更多会牵涉到矩阵乘法和加法——这与GPU采用了上千个计算单元并行处理的架构以满足图形渲染的处理需求更为类似,因而使用GPU处理AI的效率较高且成本较低。
GPU最多可以提供5120个计算单元,而CPU最高的并行处理也只有32核,事实上,CPU更多用于控制和参数同步。因而两者配合使用,能达到AI计算最优的效果。
但GPU也不是所有异构计算的完美解决方案,因为GPU的能耗比较高,比如NVidia的P100、V100等主流AI用GPU,都面临这样的问题,在大规模集群计算的时候,尤为明显。因此,内建DSP区块和本地存储器的FPGA由于可获得较佳的能源效率,也是异构计算替代方案之一,但缺点是目前FPGA芯片的价格还比较昂贵。
值得一提的是,异构计算中GPU或FPGA的区别还不仅仅体现在能耗和价格上面。举个例子,相比GPU和CPU,FPGA因为其可编程特性,更适合非标数据位宽的人工智能、金融分析、基因匹配、物联网数据库等领域。阿里云异构产品研发负责人龙欣介绍,阿里云针对非标准位宽场景做了大幅优化,以物联网时序数据库为例,采用XILINX KU115*2 PFGA芯片的阿里云F2的处理效率可比CPU高30倍,为用户大幅降低硬件加速时间和成本。
而采用了NVidia Pascal架构P4图形处理器的GPU实例GN5i,提供最大45Tops INT8整型计算能力和11TFlops FP32单精度浮点计算能力,适用于深度学习在线推理(Inference)。在云计算架构下,用户可根据深度学习计算力的要求,进行GPU实例的“Scale-out”水平扩容或“Scale-up”垂直变配,分钟级即可完成实例的创建,包括一键部署TensorFlow、Caffe等主流深度学习框架,提供智能调度、自动运维、实时扩容等服务,经过测算,可有效降低人工智能在线服务成本50%以上。而基于AMD S7150*4 GPU的GA1异构计算产品,则主要面向高性能图形计算的需求。
无论如何,《新一代人工智能发展规划》中明确的,到2020年我国整个人工智能核心产业规模要超过1500亿元,总体技术和应用要与世界先进水平同步的要求,会因为阿里云的全新一代异构加速平台,而变得更加靠谱。
毕竟,新的平台和生态,代表了这个世界新的生产关系和活跃进取的人与企业。我们,需要新旧动能的转换来提高生产力,不是吗?