什么是基于异构计算的AI架构|学习笔记

简介: 快速学习什么是基于异构计算的AI架构

开发者学堂课程【如何利用飞天AI解决方案帮助升级异构计算的AI架构什么是基于异构计算的AI架构】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/648/detail/10746


什么是基于异构计算的 AI 架构


内容介绍:

一、人工智能三要素

二、异构计算满足人工智能算力需求

三、异构计算促进人工智能的发展简史

四、阿里云异构计算为 AI 提供全面算力

五、基于阿里云异构计算的AI应用架构


一、人工智能三要素

人工智能分为三个要素,算法、数据和计算力。如果把人工智能比作一艘冉冉飞起的火箭的话,算法就是它的控制台,能够控制它的方向;数据就是它的燃料,充分的数据可以燃烧;计算力就是它的加速引擎。今天重点分享的是计算力,依托计算,飞天AI的加速如何加速人工智能的引擎。

image.png


二、异构计算满足人工智能算力需求

深度学习对计算力的需求呈指数级增长;

异构计算性能增长超越了摩尔定律,满足AI深度学习的发展对算力的需求。

image.png

人工智能发展到今天,模型越来越复杂,计算的需求也越来越高,传统的 CPU 无法满足人工智能越来越高的计算的需求,因韦达这种 GPU 为代表的异构计算的性能远远超出了 CPU 的发展能力,异构计算能够满足人工智能的发展对算力的需求。

由图可知,因韦达的 GPU 算力性能的增长速度是远远超过传统的普通 CPU 的增长速度的,所以异构计算会把人工智能推向一个新的高度。


三、异构计算促进人工智能的发展简史

1980年,神经网络算法提出;但是近几十年都没有特别大的突破;在2011年,谷歌用12片 GPU 代替了2000片 CPU,通过深度神经网络算法让机器通过看视频学会了识别猫;在2012年,Alex 和 Hinton 用 GPU 加速的深度神经网络在 ImageNet 图像识别比赛上击败传统算法获得冠军;在2015年,Google 和微软用 GPU 加速的深度神经网络,在 ImageNet 比赛中击败了多项工人辨识度,也就是说,人工智能在这个时候在某些领域已经超越了人类;在2016年,谷歌旗下 Deep Mind 团队研发的机器人AlphaGo 以4比1战胜世界围棋冠军李世石,这是人工智能发展中的一个重要里程碑,训练用了50片 GPU,走棋网络用了174片GPU,以 GPU 为代表的异构计算以火箭引擎的方式推动人工智能火箭的发展。


四、阿里云异构计算为 AI 提供全面算力

image.png

有三种不同 GPU 的实例,轻量级 GPU 实例,把 P4和T4的卡做分片,最小能分到1/8的P4和1/8的T4的卡,这种实例比较适合机器学习以及对算力要求不高的深度学习推理;常规虚拟化 GPU 实例,是把整块 GPU 卡作为加速实例提供给用户使用,它包括 GN5i提供两块 P4的卡,GN6i提供4块 T4的卡,GN6v提供8块v100的计算实例,v100之间是通过 NVLink 互联的,

主要适合于做深度学习、强化学习场景包括计算机视觉,图像合成,语音识别,语音合成,自然语言理解,机器翻译,自动驾驶等等;

X-Dragon(神龙)Hypervisor,神龙架构可以通过神龙罗金属的方式把 GPU 的计算能力和 CPU 的计算能力完全没有驯化的方式提供给用户使用,用户使用的是完全没有损失的 GPU 和 CPU,

在 ebmGN6i 的实例上提供了4块 T4的计算卡,在 SCC 的实例上提供了8块 V100的 NVLink 互联的卡,提供了50Gb的 RDMA 互联,在 SCCGN6ne 的实例上,提供了8块32GB 显存的V100,100Gb RDMA 互联。RDMA 的互联能力是要比T4的强很多的,延迟可以降低一个数量级。比较适合大规模深度学习,比如大规模分布式训练、推理以及在线机器学习。算力的要求,对实施性的要求都非常高。


五、基于阿里云异构计算的AI应用架构

image.png

在 IaaS 资源层,可以基于阿里云创建出 GPU 云服务器的计算资源以及 TCP、RDMA 网络的网络资源;

用户自己用主流的计算框架层,比如 Tensorflow、PyTorch、MXNET、Caffe 做计算框架;

在应用层,用这些框架搭建视觉服务或者 CTR 服务,自然语言理解或者语音识别的服务。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
9天前
|
自然语言处理 JavaScript Java
《鸿蒙HarmonyOS应用开发从入门到精通(第2版)》学习笔记——HarmonyOS架构介绍
HarmonyOS采用分层架构设计,从下至上分为内核层、系统服务层、框架层和应用层。内核层支持多内核设计与硬件驱动;系统服务层提供核心能力和服务;框架层支持多语言开发;应用层包括系统及第三方应用,支持跨设备调度,确保一致的用户体验。
125 81
|
1月前
|
存储 人工智能 算法
【AI系统】计算图的优化策略
本文深入探讨了计算图的优化策略,包括算子替换、数据类型转换、存储优化等,旨在提升模型性能和资源利用效率。特别介绍了Flash Attention算法,通过分块计算和重算策略优化Transformer模型的注意力机制,显著减少了内存访问次数,提升了计算效率。此外,文章还讨论了内存优化技术,如Inplace operation和Memory sharing,进一步减少内存消耗,提高计算性能。
100 34
【AI系统】计算图的优化策略
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与情感计算:AI如何理解人类情感
人工智能与情感计算:AI如何理解人类情感
39 20
|
2天前
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器ECS架构区别及选择参考:X86计算、ARM计算等架构介绍
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别,本文主要简单介绍下这些架构各自的主要性能及适用场景,以便大家了解不同类型的架构有何不同,主要特点及适用场景有哪些。
|
27天前
|
人工智能 缓存 并行计算
转载:【AI系统】CPU 计算本质
本文深入探讨了CPU计算性能,分析了算力敏感度及技术趋势对CPU性能的影响。文章通过具体数据和实例,讲解了CPU算力的计算方法、算力与数据加载之间的平衡,以及如何通过算力敏感度分析优化计算系统性能。同时,文章还考察了服务器、GPU和超级计算机等平台的性能发展,揭示了这些变化如何塑造我们对CPU性能的理解和期待。
转载:【AI系统】CPU 计算本质
|
5天前
|
人工智能 运维 监控
云卓越架构:企业稳定性架构体系和AI业务场景探秘
本次分享由阿里云智能集团公共云技术服务部上海零售技术服务高级经理路志华主讲,主题为“云卓越架构:企业稳定性架构体系和AI业务场景探秘”。内容涵盖四个部分:1) 稳定性架构设计,强调高可用、可扩展性、安全性和可维护性;2) 稳定性保障体系和应急体系的建立,确保快速响应和恢复;3) 重大活动时的稳定重宝策略,如大促或新业务上线;4) AI在企业中的应用场景,包括智能编码、知识库问答、创意广告生成等。通过这些内容,帮助企业在云计算环境中构建更加稳定和高效的架构,并探索AI技术带来的创新机会。
|
27天前
|
机器学习/深度学习 存储 人工智能
转载:【AI系统】计算之比特位宽
本文详细介绍了深度学习中模型量化操作及其重要性,重点探讨了比特位宽的概念,包括整数和浮点数的表示方法。文章还分析了不同数据类型(如FP32、FP16、BF16、FP8等)在AI模型中的应用,特别是FP8数据类型在提升计算性能和降低内存占用方面的优势。最后,文章讨论了降低比特位宽对AI芯片性能的影响,强调了在不同应用场景中选择合适数据类型的重要性。
转载:【AI系统】计算之比特位宽
|
7天前
|
存储 人工智能 运维
面向AI的服务器计算软硬件架构实践和创新
阿里云在新一代通用计算服务器设计中,针对处理器核心数迅速增长(2024年超100核)、超多核心带来的业务和硬件挑战、网络IO与CPU性能增速不匹配、服务器物理机型复杂等问题,推出了磐久F系列通用计算服务器。该系列服务器采用单路设计减少爆炸半径,优化散热支持600瓦TDP,并实现CIPU节点比例灵活配比及部件模块化可插拔设计,提升运维效率和客户响应速度。此外,还介绍了面向AI的服务器架构挑战与软硬件结合创新,包括内存墙问题、板级工程能力挑战以及AI Infra 2.0服务器的开放架构特点。最后,探讨了大模型高效推理中的显存优化和量化压缩技术,旨在降低部署成本并提高系统效率。
|
1月前
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】计算图原理
本文介绍了AI框架中使用计算图来抽象神经网络计算的必要性和优势,探讨了计算图的基本构成,包括标量、向量、矩阵、张量等数据结构及其操作,并详细解释了计算图如何帮助解决AI工程化中的挑战。此外,文章还通过PyTorch实例展示了动态计算图的特点和实现方法,包括节点(张量或函数)和边(依赖关系)的定义,以及如何通过自定义Function实现正向和反向传播逻辑。
74 7
【AI系统】计算图原理
|
7天前
|
存储 人工智能 芯片
面向AI的服务器计算互连的创新探索
面向AI的服务器计算互连创新探索主要涵盖三个方向:Scale UP互连、AI高性能网卡及CIPU技术。Scale UP互连通过ALink系统实现极致性能,支持大规模模型训练,满足智算集群需求。AI高性能网卡针对大规模GPU通信和存储挑战,自研EIC网卡提供400G带宽和RDMA卸载加速,优化网络传输。CIPU作为云基础设施核心,支持虚拟化、存储与网络资源池化,提升资源利用率和稳定性,未来将扩展至2*800G带宽,全面覆盖阿里云业务需求。这些技术共同推动了AI计算的高效互联与性能突破。

热门文章

最新文章

下一篇
开通oss服务