阿里云发布异构计算平台,只是为了人工智能吗?

简介: 阿里云发布异构计算平台,只是为了人工智能吗?

大约三个月前,一个朋友找到我,托我找找认识的渠道采购上万片AMD显卡。我询了一圈总代,得到的答复竟然是高性能AMD显卡全国断货!

众所周知,GPU是人工智能AI服务器的核心组件,因为深度学习、推理所需要的复杂计算,可以充分发挥GPU上千个计算单元并行计算的能力,降低成本、提高效率。或许,是人工智能大热,导致高性能显卡全国断货?

实际上,2017年7月,国务院印发《新一代人工智能发展规划》,人工智能从行业方向层面被提至国家战略层面。

整个产业都在思考,我们应该做什么?怎么做?

从珠穆朗玛到青藏高原


9月12日,阿里云宣布推出全新一代异构计算加速平台,在业界第一次覆盖了包括AMD、NVidia的GPU和Intel、XILINX的FPGA在内的所有6款主流异构实例。

image.png

公有云服务商升级计算产品并不奇怪,何况如今人工智能大热,国家鼓励新旧动能转换,鼓励产业升级。

以往,人工智能这样的复杂应用计算通常需要高性能计算(HPC)服务器,甚至提供集群计算服务的超算中心来完成。特别是HPC产业也已经开发并推出了越来越多的GPU异构HPC来满足AI市场需求。

但问题在于,传统超算中心的使用门槛比较高,而自购高性能计算软硬件,对于很多人工智能初创企业来说,也不现实。从这一角度,即便是传统超算中心,也已经把云化高性能计算集群,特别是云化异构HPC满足更广泛的市场需求提上了议事日程。

不过,传统超算中心的云化过程必然是漫长的,因为传统市场的保有量必然会延缓其转型的紧迫性。相对而言,阿里云这样的云服务商提供包括E-HPC全新高性能计算实例在内的阿里云异构计算家族和平台,相当于开拓一片全新的市场,自然能动性要高很多。

这里引用一段阿里云高性能计算研发负责人何万青博士的话:“如果把传统超算中心比作‘珠穆朗玛峰’,那么阿里云的E-HPC则是将高性能计算做更普惠的覆盖,成为高性能计算的‘青藏高原’。”

构建生态优势


其实,青藏高原和珠穆朗玛峰的区别,就在于面和点的区别。云计算相对于传统架构,最大的优势在于降低了计算门槛——不仅是使用者的门槛,还有开发者、ISV的门槛。而由此而形成生态之后,能量甚至会成几何倍数放大。

从这一角度,阿里云推出全新一代异构加速平台,必然不是为了和传统超算中心抢夺客户。在笔者的求证下,阿里云异构计算负责人张献涛介绍,异构加速平台的生态实际上有两个层面:一是图形计算、生命科学、材料力学、分子动力学等科研计算领域以及其他各行各业的ISV,让异构高性能计算得以普及;另一层面就是人工智能创业企业,而阿里云正在制定相关的扶持计划,为符合条件的人工智能初创企业提供高达百万元的资金辅助。

image.pngimage.gif

从左至右:龙欣、张献涛、何万青与媒体沟通

由此,我们可以回到一个业界一再思索的问题:为什么人工智能概念已经提出了60多年,直到最近人工智能市场才得以引爆呢?在笔者看来,答案很简单,因为云计算时代来临了。

众所周知,人工智能有三大要素:数据、计算力、算法。数据,得益于智能终端和传感器的普及,以及更为重要的后台云数据中心和云计算服务商大幅降低计算、存储成本,形成爆发式增长;算法方面,即便是今天谈的最多的深度学习、神经网络的算法,实际上在30年前就已经出现了,无论是科学家还是工程技术人员都在算法层面做了大量研究。

只有计算力,作为降低深度学习模型训练时间成本的关键,才恰恰是钻木取火、点燃人工智能火堆的最关键的那一根火绒草。无论是计算力还是数据的爆发增长,都得益于云计算。因此,在笔者看来,从平台到生态,云计算一定是人工智能未来发展的基石。

异构计算各不相同


回到技术层面,所谓“异构计算”到底为什么对人工智能如此关键?

在笔者看来,异构计算并不是什么新概念,因为我们的电脑早就在采用CPU和GPU两种不同架构的处理器,来加速完成大规模图形渲染这样的需求了。

实际上,GPU和AI关联起来,主要是因为AI等类神经网路的处理更多会牵涉到矩阵乘法和加法——这与GPU采用了上千个计算单元并行处理的架构以满足图形渲染的处理需求更为类似,因而使用GPU处理AI的效率较高且成本较低。

GPU最多可以提供5120个计算单元,而CPU最高的并行处理也只有32核,事实上,CPU更多用于控制和参数同步。因而两者配合使用,能达到AI计算最优的效果。

但GPU也不是所有异构计算的完美解决方案,因为GPU的能耗比较高,比如NVidia的P100、V100等主流AI用GPU,都面临这样的问题,在大规模集群计算的时候,尤为明显。因此,内建DSP区块和本地存储器的FPGA由于可获得较佳的能源效率,也是异构计算替代方案之一,但缺点是目前FPGA芯片的价格还比较昂贵。

值得一提的是,异构计算中GPU或FPGA的区别还不仅仅体现在能耗和价格上面。举个例子,相比GPU和CPU,FPGA因为其可编程特性,更适合非标数据位宽的人工智能、金融分析、基因匹配、物联网数据库等领域。阿里云异构产品研发负责人龙欣介绍,阿里云针对非标准位宽场景做了大幅优化,以物联网时序数据库为例,采用XILINX KU115*2 PFGA芯片的阿里云F2的处理效率可比CPU高30倍,为用户大幅降低硬件加速时间和成本。

而采用了NVidia Pascal架构P4图形处理器的GPU实例GN5i,提供最大45Tops INT8整型计算能力和11TFlops FP32单精度浮点计算能力,适用于深度学习在线推理(Inference)。在云计算架构下,用户可根据深度学习计算力的要求,进行GPU实例的“Scale-out”水平扩容或“Scale-up”垂直变配,分钟级即可完成实例的创建,包括一键部署TensorFlow、Caffe等主流深度学习框架,提供智能调度、自动运维、实时扩容等服务,经过测算,可有效降低人工智能在线服务成本50%以上。而基于AMD S7150*4 GPU的GA1异构计算产品,则主要面向高性能图形计算的需求。

无论如何,《新一代人工智能发展规划》中明确的,到2020年我国整个人工智能核心产业规模要超过1500亿元,总体技术和应用要与世界先进水平同步的要求,会因为阿里云的全新一代异构加速平台,而变得更加靠谱。

毕竟,新的平台和生态,代表了这个世界新的生产关系和活跃进取的人与企业。我们,需要新旧动能的转换来提高生产力,不是吗?

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
9月前
|
人工智能
复旦大学X阿里云:启动人工智能教育教学新合作丨云工开物
在复旦大学建校120周年之际,阿里云与复旦达成人工智能教育教学合作,通过算力资源、实验工具及课程共建等方式支持“AI大课2.0”。此次合作深化了双方在AI for Science领域的实践,从科研拓展至教育领域。自2023年起,双方共建CFFF智算平台,服务超5200名师生;2024年,“云工开物”计划助力复旦AI课程体系建设;2025年启动大模型认证合作,推动AI教育新模式。未来,阿里云将持续赋能复旦的人才培养与教育创新。
|
4月前
|
人工智能 并行计算 PyTorch
以Lama Cleaner的AI去水印工具理解人工智能中经常会用到GPU来计算的CUDA是什么? 优雅草-卓伊凡
以Lama Cleaner的AI去水印工具理解人工智能中经常会用到GPU来计算的CUDA是什么? 优雅草-卓伊凡
444 4
|
5月前
|
机器学习/深度学习 人工智能 供应链
决策智能是新的人工智能平台吗?
决策智能融合数据、决策与行动,通过AI与自动化技术提升企业决策质量与效率,支持从辅助到自动化的多级决策模式,推动业务敏捷性与价值转化。
|
7月前
|
机器学习/深度学习 人工智能 运维
阿里云PAI人工智能平台介绍、优势及收费标准,手动整理
阿里云人工智能平台PAI是面向开发者和企业的机器学习与深度学习工程平台,提供数据标注、模型构建、训练、部署及推理优化等全链路服务。内置140+优化算法,支持PyTorch、TensorFlow等多种框架,具备高性能训练与推理能力,适用于自动驾驶、金融风控、智能推荐、智慧医疗等多个行业场景。PAI提供零代码开发、可视化建模、大模型一键部署等功能,助力企业快速构建AI应用。支持多种购买方式,如按量付费、预付费等,满足不同业务需求。
|
9月前
|
人工智能 弹性计算 程序员
青岛城市学院 × 阿里云 | 云工开物「人工智能+」训练营圆满落幕!
人工智能浪潮席卷而来,大模型、智能编程等前沿技术不断革新,已经成为推动全球经济社会发展和人类文明进步的重要力量。人工智能的发展不仅改变了产业结构,同时也对高等教育的人才培养提出了新的要求,并进一步推动着教育新生态的重构。
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身
本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长,它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下,将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。
|
9月前
|
人工智能
生成式人工智能认证(GAI认证)官网 - 全国统一认证中文服务平台上线
生成式人工智能(AI)正深刻改变职场规则,但系统化学习相关技术成为难题。近日,由全球知名教育公司培生推出的生成式人工智能认证(GAI认证)中文官网正式上线,为专业人士和学习者提供了权威解决方案。该认证涵盖核心技能、提示工程、伦理合规等内容,助力持证者紧跟技术前沿,在职场中脱颖而出。全国统一认证平台提供便捷报名与在线考试服务,考后快速出成绩并颁发证书。行动起来,开启AI职业新篇章!
|
10月前
|
存储 人工智能 开发者
浙江大学与阿里云宣布合作人工智能通识课,通义灵码系列课程率先落地
浙江大学与阿里云联合宣布共建人工智能通识课,将在“AI+行业”课程方面从产、学、研角度,共同围绕教育、法律、设计、金融、人文和艺术等多个重点学科方向,将真实产业案例深度融入浙江大学人工智能通识课程体系。
|
11月前
|
机器学习/深度学习 存储 人工智能
AI职场突围战:夸克应用+生成式人工智能认证,驱动“打工人”核心竞争力!
在AI浪潮推动下,生成式人工智能(GAI)成为职场必备工具。文中对比了夸克、豆包、DeepSeek和元宝四大AI应用,夸克以“超级入口”定位脱颖而出。同时,GAI认证为职场人士提供系统学习平台,与夸克结合助力职业发展。文章还探讨了职场人士如何通过加强学习、关注技术趋势及培养合规意识,在AI时代把握机遇。