什么是基于异构计算的AI架构|学习笔记-阿里云开发者社区

什么是基于异构计算的AI架构|学习笔记

2022-11-23 999

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习什么是基于异构计算的AI架构

开发者学堂课程【如何利用飞天AI解决方案帮助升级异构计算的AI架构：什么是基于异构计算的AI架构】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/648/detail/10746

什么是基于异构计算的 AI 架构

内容介绍：

一、人工智能三要素

二、异构计算满足人工智能算力需求

三、异构计算促进人工智能的发展简史

四、阿里云异构计算为 AI 提供全面算力

五、基于阿里云异构计算的AI应用架构

一、人工智能三要素

人工智能分为三个要素，算法、数据和计算力。如果把人工智能比作一艘冉冉飞起的火箭的话，算法就是它的控制台，能够控制它的方向；数据就是它的燃料，充分的数据可以燃烧；计算力就是它的加速引擎。今天重点分享的是计算力，依托计算，飞天AI的加速如何加速人工智能的引擎。

二、异构计算满足人工智能算力需求

深度学习对计算力的需求呈指数级增长；

异构计算性能增长超越了摩尔定律，满足AI深度学习的发展对算力的需求。

人工智能发展到今天，模型越来越复杂，计算的需求也越来越高，传统的 CPU 无法满足人工智能越来越高的计算的需求，因韦达这种 GPU 为代表的异构计算的性能远远超出了 CPU 的发展能力，异构计算能够满足人工智能的发展对算力的需求。

由图可知，因韦达的 GPU 算力性能的增长速度是远远超过传统的普通 CPU 的增长速度的，所以异构计算会把人工智能推向一个新的高度。

三、异构计算促进人工智能的发展简史

1980年，神经网络算法提出；但是近几十年都没有特别大的突破；在2011年，谷歌用12片 GPU 代替了2000片 CPU，通过深度神经网络算法让机器通过看视频学会了识别猫；在2012年，Alex 和 Hinton 用 GPU 加速的深度神经网络在 ImageNet 图像识别比赛上击败传统算法获得冠军；在2015年，Google 和微软用 GPU 加速的深度神经网络，在 ImageNet 比赛中击败了多项工人辨识度，也就是说，人工智能在这个时候在某些领域已经超越了人类；在2016年，谷歌旗下 Deep Mind 团队研发的机器人AlphaGo 以4比1战胜世界围棋冠军李世石，这是人工智能发展中的一个重要里程碑，训练用了50片 GPU，走棋网络用了174片GPU，以 GPU 为代表的异构计算以火箭引擎的方式推动人工智能火箭的发展。

四、阿里云异构计算为 AI 提供全面算力

有三种不同 GPU 的实例，轻量级 GPU 实例，把 P4和T4的卡做分片，最小能分到1/8的P4和1/8的T4的卡，这种实例比较适合机器学习以及对算力要求不高的深度学习推理；常规虚拟化 GPU 实例，是把整块 GPU 卡作为加速实例提供给用户使用，它包括 GN5i提供两块 P4的卡，GN6i提供4块 T4的卡，GN6v提供8块v100的计算实例，v100之间是通过 NVLink 互联的，

主要适合于做深度学习、强化学习场景包括计算机视觉，图像合成，语音识别，语音合成，自然语言理解，机器翻译，自动驾驶等等；

X-Dragon(神龙)Hypervisor，神龙架构可以通过神龙罗金属的方式把 GPU 的计算能力和 CPU 的计算能力完全没有驯化的方式提供给用户使用，用户使用的是完全没有损失的 GPU 和 CPU，

在 ebmGN6i 的实例上提供了4块 T4的计算卡，在 SCC 的实例上提供了8块 V100的 NVLink 互联的卡，提供了50Gb的 RDMA 互联，在 SCCGN6ne 的实例上，提供了8块32GB 显存的V100，100Gb RDMA 互联。RDMA 的互联能力是要比T4的强很多的，延迟可以降低一个数量级。比较适合大规模深度学习，比如大规模分布式训练、推理以及在线机器学习。算力的要求，对实施性的要求都非常高。

五、基于阿里云异构计算的AI应用架构

在 IaaS 资源层，可以基于阿里云创建出 GPU 云服务器的计算资源以及 TCP、RDMA 网络的网络资源；

用户自己用主流的计算框架层，比如 Tensorflow、PyTorch、MXNET、Caffe 做计算框架；

在应用层，用这些框架搭建视觉服务或者 CTR 服务，自然语言理解或者语音识别的服务。