带你读《弹性计算—无处不在的算力》第三章:计算产品和技术3.4 异构计算云服务和AI 加速器(一)

简介: 《弹性计算—无处不在的算力》第三章:计算产品和技术3.4 异构计算云服务和AI 加速器(一)


异构计算指由不同类型指令集和体系架构的计算单元组成系统的计算方式,目前主要包括GPUFPGA 和定制ASIC 等。它们好比天赋异禀的独门高手,在特定场景下比普通的云服务器高出一个甚至更多数量级的性价比和效率,例如,在图形图像处理、机器学习、科学计算等场景下。要把这些异构计算设备包装成云服务器,同样需要对它们进行虚拟化。而由于这些设备的特殊性,其虚拟化技术或多或少地有别 于CPU


随着人工智能浪潮的兴起,越来越多的AI 计算都采用异构计算来实现性能加速。异构计算能够为越来越复杂和精确的AI 的计算模型带来大幅性能提升,现在, AI 开发者大部分都采用了TensorFlowPyTorch 等主流的AI 计算框架来实现异构计算的性能加速。但是,这些主流的AI 框架不能充分发挥异构计算超强的计算能力, 因此我们针对异构计算云服务研发了云端 AI 加速器,通过统一的框架同时支持了


TensorFlowPyTorchMXNetCaffe 4 种主流AI 计算框架的性能加速,并且针对以太网和异构加速器本身进行了深入的性能优化。


3.4.1 功能特点

异构计算GPU

视觉、图形、虚拟现实、大数据和人工智能等新兴技术的发展和广泛应用对计算能力提出了更高的要求。传统计算机的计算主要是由计算机的中央处理器(CPU)完成的,CPU 除了必要的计算工作,还需要负责处理复杂的控制逻辑, 这就导致 CPU 的内部架构异常复杂,真正用于计算的部分占比并不高。随着芯片技术的发展,CPU 晶体管的数量不断增加,但是 CPU 的计算能力没办法得到质的提升。使用 CPU 对上述领域的数据进行处理,在经济性和实效性方面都无法满足实际应用的要求。异构计算因此而产生。


异构计算是相对于 CPU 的通用计算而言的,通过在现有 CPU 基础上引入新的硬件计算单元来解决上述问题。这些新的硬件单元针对特定的计算场景进行深度的优化和定制,在处理这一类计算任务时可以获得相比 CPU 几十倍甚至上百倍的效率提升。目前主流的异构计算解决方案有GPUFPGA,在阿里云弹性计算的产品序列上, 它们分别对应GPU 云服务、FPGA 云服务和弹性加速实例服务(Elastic Acceleration Instance ServiceEAIS)。


GPU 云服务器是基于GPU 应用的计算服务器。在GPU 硬件支持虚拟化之前, 已经在各个领域被广泛应用。GPU 在执行复杂的数学和几何计算方面有着独特的优势。特别是在浮点运算、并行计算等方面,GPU 可以提供上百倍于CPU 的计算能力。GPU 云服务器让GPU 的使用更便捷、成本更低,GPU 上云是大势所趋。GPU 云服务器发布和人工智能爆发在同一年,两者相互促进。GPU 云服务器已经成为人工智能应用依赖的基础设施。


CPU 相比,GPU 硬件的使用需要复杂的生态软件支持,环境的构建较为复杂, 以NVIDIA GPU 硬件为例,底层安装的GPU 硬件驱动,并行计算需要CUDAcuDNN 等基础库支持,上层应用还需要设置各种的环境变量,使用比较复杂。GPU 云服务器是虚拟化云服务器的一个规格族,具有虚拟化服务器的一切特性:在环境复用性上利用自定义镜像等功能,可以很便捷地规模化使用;支持停机迁移,GPU 或宿主机出现故障时,可以通过冷迁移,在几分钟内恢复起来。当前GPU 分片虚拟化技术已经成熟,各云服务提供商已经试水上线对应的规格,和GPU 直通相比,具容器服务对GPU 的支持已经非常成熟,GPU 硬件厂商对Docker 做了定制化的开发,在容器内可以获得GPU 全部功能,使用更加便捷。GPU 云服务器作为弹性的资源,在之上部署容器服务,从而实现弹性业务,这种架构方案已经被主流AI 公司广泛使用。


异构计算FPGA

FPGA 自诞生之初,就以高度灵活的可编程性提供类ASIC 的性能和能效比而被广泛应用于有线和无线通信、航空航天、医疗电子和汽车电子等领域。但是,相比CPU GPUFPGA 的开发周期较长(尽管只有ASIC 开发周期的一半乃至三分之一)、开发和使用门槛较高,使得FPGA 的开发人员远远少于CPU GPU 的开发人员,同时应用范围和知名度也受到了很大的限制。


随着云计算的蓬勃发展,各种新的数据中心应用层出不穷,对算力(比如AI) 和计算结果实时性(比如基因测序和视频直播)提出了越来越高的要求。而CPU 的算力随着摩尔定律的终结,短时间内很难有大的提升,业界也逐渐尝到了采用FPGA 进行特定workload 加速的巨大优势。因此,在数据中心大力推广FPGA 异构加速逐渐成为业界共识。与之相对应,AWS 和阿里云在2017 4 月先后发布了基于FPGA 的云上应用,也即FPGA as a Service。其目的是提供超高性价比、超低延时(相比CPU 或者GPU,下同)的云上FPGA 服务。微软也通过Catapult 项目,在自家的数据中心大量部署FPGA,支持Bing Office 365 业务,更于2019 10 月北美XDF 大会上推出了自家的FPGA as a Service 产品,进一步佐证了FPGA 异构加速在数据中心应用的光明前景。


一般来说,云上FPGA 服务应具备如下功能和特点。

一是易用性,包括购买和使用要达到类ECS(基于CPU 的计算服务)的方便快捷性;具备类ECS 的灵活调度性,随用随开、不用释放。

二是稳定性,要具备类ECS 的热升级、热迁移功能。

三是安全性,包括客户和第三方ISV IP 地址要被合理合法使用;能够防范各种针对FPGA 的恶意攻击及受到攻击后迅速恢复。

四是要提供FPGA 云上开发和使用的工具及环境,让用户和线下一样方便地开发各种FPGA 加速器并在云上部署。

弹性加速实例服务

弹性加速实例服务(EAIS)支持异构计算资源的弹性挂载,前端可以使用不带异构加速的ECS 实例,后端可以动态挂载或者卸载GPUFPGANPU 等实例,让普通ECS 具备异构计算加速的能力。EAIS 可以让CPU 和异构加速器的数量配比实现灵活可配置,从而满足AI 推理、渲染、视频编解码全场景对于不同CPU 和异构加速器的数量配比的需求。同时,后端的GPUFPGANPU 等实例通过池化管理和调度,可以灵活选择最适合用户工作负载的异构加速器,大大降低异构加速成本。


AI 加速器

AI 加速器通过统一的框架同时支持TensorFlowPyTorchMXNetCaffe 4 种主流的人工智能计算框架的分布式性能加速,并且针对以太网和异构加速器都做了很深入的性能优化,在不同场景不同训练规模下可以提升1 10 倍的训练性能。同时,AI 加速器和各AI 计算框架是解耦的,一方面可以轻松支持各AI 计算框架社区版本的向前迭代;另一方面,用户使用各AI 计算框架实现的模型、算法代码基本上不用修改,就可以很轻松的获得性能加速。


相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
3天前
|
人工智能 Java 程序员
通义灵码AI编码助手和AI程序员背后的技术
通义灵码AI编码助手和AI程序员背后的技术,由通义实验室科学家黎槟华分享。内容涵盖三部分:1. 编码助手技术,包括构建优秀AI编码助手及代码生成补全;2. 相关的AI程序员技术,探讨AI程序员的优势、发展情况、评估方法及核心难点;3. 代码智能方向的展望,分析AI在软件开发中的角色转变,从辅助编程到成为开发主力,未来将由AI执行细节任务,开发者负责决策和审核,大幅提升开发效率。
42 12
|
3天前
|
人工智能 算法 测试技术
AI 研发产品进化论:从 AI 编码助手到 AI 程序员
本次分享由阿里云资深技术专家陈鑫主讲,主题为“AI研发产品进化论:从AI编码助手到AI程序员”。内容涵盖通义灵码在落地过程中的挑战与突破,包括精准度提升、企业级检索增强、自定义扩展及智能体的应用。通过全工程理解、个性化适配和智能体的引入,通义灵码已实现代码补全、单元测试生成、缺陷修复等核心功能,并显著提升了开发者的工作效率。目前,通义灵码已在Vs Code和JetBrains插件市场上获得超过500万次下载,月均采纳率超过30%,并持续优化中。
31 9
|
2天前
|
机器学习/深度学习 人工智能 编译器
BladeDISC++:Dynamic Shape AI 编译器下的显存优化技术
本文介绍了阿里云 PAI 团队近期发布的 BladeDISC++项目,探讨在动态场景下如何优化深度学习训练任务的显存峰值,主要内容包括以下三个部分:Dynamic Shape 场景下显存优化的背景与挑战;BladeDISC++的创新解决方案;Llama2 模型的实验数据分析
|
2天前
|
存储 人工智能 边缘计算
AI时代下, 边缘云上的技术演进与场景创新
本文介绍了AI时代下边缘云的技术演进与场景创新。主要内容分为三部分:一是边缘云算力形态的多元化演进,强调阿里云边缘节点服务(ENS)在全球600多个节点的部署,提供低时延、本地化和小型化的价值;二是边缘AI推理的创新发展与实践,涵盖低时延、资源广分布、本地化及弹性需求等优势;三是云游戏在边缘承载的技术演进,探讨云游戏对边缘计算的依赖及其技术方案,如多开技术、云存储和网络架构优化,以提升用户体验并降低成本。文章展示了边缘云在未来智能化、实时化解决方案中的重要性。
|
3天前
|
人工智能 IDE 程序员
从 AI Coding 演进路径看通义灵码 AI 程序员的发布,让更多 idea 变成产品
通义灵码 2.0 不仅正式发布 AI 程序员,还升级了很多基础能力,使用场景多样。繁星计划的推出更为大学生提供了免费的智能编码助手,助力科技创新。让不具备编码能力的人也可以将 idea 变成产品,帮助到更多开发者和泛开发者。
|
2天前
|
人工智能 编解码 安全
全球AI新浪潮:智能媒体服务的技术创新与AIGC加速出海
本文介绍了智能媒体服务的国际化产品技术创新及AIGC驱动的内容出海技术实践。首先,探讨了媒体服务在视频应用中的升级引擎作用,分析了国际市场的差异与挑战,并提出模块化产品方案以满足不同需求。其次,重点介绍了AIGC技术如何推动媒体服务2.0智能化进化,涵盖多模态内容理解、智能生产制作、音视频处理等方面。最后,发布了阿里云智能媒体服务的国际产品矩阵,包括媒体打包、转码、实时处理和传输服务,支持多种广告规格和效果追踪分析,助力全球企业进行视频化创新。
|
人工智能 弹性计算 前端开发
带你读《弹性计算—无处不在的算力》第三章:计算产品和技术3.4 异构计算云服务和AI 加速器(五)
带你读《弹性计算—无处不在的算力》第三章:计算产品和技术3.4 异构计算云服务和AI 加速器(五)
838 0
带你读《弹性计算—无处不在的算力》第三章:计算产品和技术3.4 异构计算云服务和AI 加速器(五)
|
机器学习/深度学习 弹性计算 人工智能
带你读《弹性计算—无处不在的算力》第三章:计算产品和技术3.4 异构计算云服务和AI 加速器(三)
《弹性计算—无处不在的算力》第三章:计算产品和技术3.4 异构计算云服务和AI 加速器(三)
855 0
带你读《弹性计算—无处不在的算力》第三章:计算产品和技术3.4 异构计算云服务和AI 加速器(三)
|
机器学习/深度学习 编解码 人工智能
带你读《弹性计算—无处不在的算力》第三章:计算产品和技术3.4 异构计算云服务和AI 加速器(二)
《弹性计算—无处不在的算力》第三章:计算产品和技术3.4 异构计算云服务和AI 加速器(二)
340 0
带你读《弹性计算—无处不在的算力》第三章:计算产品和技术3.4 异构计算云服务和AI 加速器(二)
|
4天前
|
人工智能 运维 物联网
云大使 X 函数计算 FC 专属活动上线!享返佣,一键打造 AI 应用
如今,AI 技术已经成为推动业务创新和增长的重要力量。但对于许多企业和开发者来说,如何高效、便捷地部署和管理 AI 应用仍然是一个挑战。阿里云函数计算 FC 以其免运维的特点,大大降低了 AI 应用部署的复杂性。用户无需担心底层资源的管理和运维问题,可以专注于应用的创新和开发,并且用户可以通过一键部署功能,迅速将 AI 大模型部署到云端,实现快速上线和迭代。函数计算目前推出了多种规格的云资源优惠套餐,用户可以根据实际需求灵活选择。

热门文章

最新文章