阿里云林立翔:基于阿里云GPU的AIGC小规模训练优化方案

简介: 阿里云弹性计算林立翔在【AIGC】话题下带来了题为《基于阿里云GPU的AIGC小规模训练优化方案》的主题演讲,围绕生成式AI技术栈、生成式AI微调训练和性能分析、ECS GPU实例为生成式AI提供算力保障、应用场景案例等相关话题展开。


本篇文章围绕生成式AI技术栈、生成式AI微调训练和性能分析、ECS GPU实例为生成式AI提供算力保障、应用场景案例等相关话题展开。


一、生成式AI技术栈介绍


1、生成式AI爆发的历程


在2022年的下半年,业界迎来了生成式AI的全面爆发,尤其是以ChatGPT为代表的大语言模型和以Stable Diffusion为代表的图片生成类模型。举个例子,某幼儿园老师要求家长写一篇1500字的关于家庭教育法的心得体会,ChatGPT可以胜任这份工作;各种logo也可以通过Stable Diffusion生成式模型来生成,根据提示词生成各类图片。


(1)软件算法部分


生成式AI的爆发彻底突破了过往对AI应用的想象空间,但从软件和算法角度,生成式AI的全面爆发并非一蹴而就,它是近三四十年所有研发人员、算法工程师以及科研人员的努力,共同促成了当今生成式AI的爆发。



1986年,上世纪六七十年代被抛弃的神经网络重新回归主流研究领域。1987年,概率推理和机器学习算法引入,将不确定性的数学建模以及随机梯度下降的学习算法引入到人工智能的主流算法研究领域。


21世纪初,随着互联网的爆炸式发展,大数据技术被引入到各个领域,包括生产、分析以及人工智能。近十年,深度学习技术尤其火热,即通过多层感知网络堆叠来提升模型泛化精度。这些算法基础设施的不断演进,促成了生成式AI爆发。


(2)硬件部分


硬件部分也是促成当前生存式AI爆发的重要基础。如人工智能领域,我们通常喜欢和人类大脑进行类比,人脑约有1011个神经元,神经元之间有1010  个突触,相当于可以达到每秒钟1017的算力,约为0.1 EFLOPS。个人计算机目前还达不到人脑的算力,GPU集群的计算能力已经超过了人类大脑的算力,先进的GPU计算集群已经可以达到EFLOPS的级别。因此,算力也是目前生成式AI的重要硬件保障。



上图中展示了目前最典型的GPU 3模型的大致推算,纵坐标Petaflop/s-Days表示要在一天之内训练一个模型,算力需要达到的Petaflop/s。GPT 3的量级约为10的4次方的Petaflop/s-Days,如果使用千卡的A100组成集群,大致需要一个月的时间训练完GPT 3的预训练模型。


2、生成式AI训练技术栈


总结来说,是由于模型结构的创新,尤其以2017年开始Transformer模型结构为代表;另外大数据带来了海量的数据集,还包括机器学习的梯度寻优算法结构,共同构成了AI训练算法和软件上的基础。另外,从GPU的云服务器到GPU的云服务集群,构成了AI训练的硬件基础。



软件算法与硬件发展带来了当下生成式AI训练技术栈爆发,带来了通往AGI的曙光。


二、生成式AI微调训练和性能分析


第二部分,我将介绍目前在生成式AI的微调训练场景下的流程、使用场景以及基于ECS GPU云服务器,生存式AI微调训练场景的性能分析。


1、生成式AI从开发到部署的流程


大致可以分为三部分——预训练、微调和推理,如下图所示:



最左侧是Pre-Training(预训练),生成通用模型,中间是Fine Tuning(微调),生成特定领域的数据集,最终在部署时,进行Inference推理。


在Pre-Training阶段,最重要的特点是有海量的数据集以及大的参数量,因此该场景需要大规模算力进行分布式训练,通常以月为单位的开发周期和生产迭代的流程。


在Fine Tuning阶段,与Pre-Training略有区别,该场景下需要Special Data,如垂直领域模型的客户专属的私域数据。此外,根据应用场景需求,有些场景可能需在要分钟级Fine Tuning出一个模型,有些场景可以以周为单位生产模型,进而把Pre-Training模型变成specialize特定领域的模型,如coding、media advise、education等垂类的模型。


在Inference推理阶段,其特点更加明显,即用于部署,最关键是如何在符合特定的在线服务环境下做到时延和吞吐,以达到上线需求。


生成式AI微调训练场景中两类常见的模型,如上图所示。

第一类,如妙鸭相机APP,它是基于Diffusion生成类模型提供针对客户定制化专属模型的一种训练方式,它是快速Fine Tuning与高效Inference兼顾的一种训推一体的生成式AI模型。

第二类,垂直领域的大模型,以大语言模型为代表,它根据特定场景以及对应的垂类领域的数据,基于基座模型Fine Tuning定制化的LLM模型。


2、生成式AI微调场景的GPU性能分析




以上两类模型在GPU计算上存在瓶颈。GPU的原理并不复杂,即一堆小的Micro的计算单元做ALU计算,和小块矩阵乘法。但模型或深度学习算法并不是简单地由矩阵乘组成,包括transform layer等对应的activation等,如何将堆叠的layer映射到算力资源,更好地发挥出算力的efficiency是我们需要解决的场景。


具体到生成式AI的微调场景,上图的最下方列了两张Timeline图,左下角是以ECS V100 16G实例在Stable Diffusion微调训练场景为代表,可以看到GPU计算逻辑时间序列有很多空白,说明GPU的算力没有被完全发挥出来,其最重要的瓶颈来自于CPU本身的overhead特别大,这是v100场景下在Stable Diffusion微调遇到的瓶颈。


右下角ECS A100 80G实例在Llama LLM微调训练场景为代表,最上面一层是在GPU上的计算执行逻辑,下面是密集的all gather通信流,又伴随着密集的 Reduce scatter通信流,它是网络IO成为bound的计算workload。


映射到算力资源,CPU overhead bound和Network IO bound成为了GPU运算的瓶颈。


三、ECS GPU实例为生成式AI提供算力保障


ECS GPU云服务器通过软硬件结合的方式,为生成式AI的微调场景提供了充沛、高性能的算力保障。


1、ECS 异构计算为生成式AI提供澎湃算力


下面是阿里云异构计算产品大图。底座是ECS的神龙计算平台,之上提供了包括gn7e、gn7i以及其他做计算加速实例的硬件资源组。在算力的基础之上,提供DeepGPU Toolkits,其目标在于衔接上层AI应用和底层硬件资源,进行软结合一体化的优化,提升ECS GPU云服务器与友商相比的差异化竞争力,服务于客户以达到高性能和高性价比的AI训练和推理效果。





2、ECS 异构计算DeepGPU提升生成式AI效率


以下是DeepGPU的简图。



左侧是开发模型的训练技术栈,通常开发人员只关注两部分,第一,是否能提供足够的算力服务,可以通过开源的调度器以及开源的模型框架搭建模型算法的开发流程。DeepGPU的工作则是在客户并不触及的部分,包括驱动级、计算库和通信库,整合包括CIPU、ECS GPU云服务器的能力提升在模型训练和推理的效果和能力。


右侧是DeepGPU的整体架构图,其底层是依托于GPU的基础架构,包括异构GPU计算实例、eRDMA/vpc网络以及云存储,在基础产品增强工具包中提供包括基于eRDMA训练的客户参考解决方案,最终的目的是帮助客户在基于ECS GPU云服务器上,其模型的训练推理的性能可以达到最佳。


3、阿里云CIPU + DeepGPU提升分布式训练效率


简单介绍DeepNCCL如何通过阿里云特有的基础设施达到软硬结合的训练加速的效果。左侧图是CIPU的基础设施,它提供了eRDMA Engine,可以达到大吞吐、低延时的网络通信的能力,叠加DeepNCCL软硬结合的性能优化,右图显示allgather的NCCL test性能数据,右侧是原生的数据,左侧是DeepNCCL加持的性能数据,DeepNCCL实现了比原生数据提升50%~100%的primitive的NCCL集合通信的算子优化能力。



四、应用场景案例


这部分通过几个典型的场景介绍ECS GPU云服务器叠加DeepGPU在生成式AI的应用场景以及对应的性能加速效果。


1、ECS A10 DeepGPU Diffusion微调训练案例



关于DeepGPU Diffusion微调的训练案例的性能加速方案,前面的内容中曾提及过该场景的目标,即训推一体。换言之,客户首次或二次进入都要快速生成模型,则其训练一定要快,也就是说其在模型上有一定的折中,如通过LoRA降低总计算量;其次,模型中需要有专属于每个客户自己的feature,通常是在Diffusion中通过Dreambooth或controlnet提供专属模型的优化能力。


通过算法上的加持可以形成用户专属模型,另外可以保证快速。再叠加gn7e、gn7i提供的高弹性算力保障,可以提升整个训推一体的算力需求,同时DeepGPU软硬结合可以额外带来15%~40%的性能提升。类似的案例已经在客户妙鸭大规模上线,通过快速地弹出大量的A10、V100实例以及DeepGPU的性能加持,帮助妙鸭快速应对高峰期用户推理和训练的请求。


2、ECS A100 DeepGPU LLM 微调训练案例

另一部分,在大语言模型的微调训练案例,其特点是模型参数量太大,在单机很难装载训练,因此模型参数需要sharding到不同的GPU卡和不同的机器上做训练算法的迭代,这会引入大量卡间通信,且是同步通信操作,因此多卡互联的能力是LLM在微调训练场景的瓶颈。



ECS GPU云服务器提供包括eRDMA以及大带宽的算力和通信带宽保障,再叠加DeepGPU的DeepNCCL加持,可以为大语言模型在多机多卡的微调场景带来10%~80%的性能提升。这个案例也在许多客户场景上得到了实践。


以上就是本次分享的全部内容。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
21天前
|
机器学习/深度学习 人工智能 PyTorch
阿里云GPU云服务器怎么样?产品优势、应用场景介绍与最新活动价格参考
阿里云GPU云服务器怎么样?阿里云GPU结合了GPU计算力与CPU计算力,主要应用于于深度学习、科学计算、图形可视化、视频处理多种应用场景,本文为您详细介绍阿里云GPU云服务器产品优势、应用场景以及最新活动价格。
阿里云GPU云服务器怎么样?产品优势、应用场景介绍与最新活动价格参考
|
28天前
|
人工智能 JSON Linux
利用阿里云GPU加速服务器实现pdf转换为markdown格式
随着AI模型的发展,GPU需求日益增长,尤其是个人学习和研究。直接购置硬件成本高且更新快,建议选择阿里云等提供的GPU加速型服务器。
利用阿里云GPU加速服务器实现pdf转换为markdown格式
|
1月前
|
人工智能 城市大脑 数据可视化
阿里云“山海计划”:基于UE引擎的“中国特色”城市场景AIGC方案
阿里云数据可视化产品DataV的三维交互团队近期研发了基于虚幻引擎与AIGC的中国城市三维场景的一站式生成服务,本文以建筑生成为切入点,从方法论出发逐步为大家展开一个宏大的、高度智能化的真实世界打造之旅。
248 24
|
2月前
|
弹性计算 固态存储 Linux
阿里云服务器、轻量应用服务器、gpu云服务器收费标准与实时活动价格参考
云服务器ECS、轻量应用服务器和gpu云服务器是阿里云的主要云服务器产品,目前轻量应用服务器2核2G收费标准为60元/月,活动价格只要36元/1年或68元1年,云服务器1核1G包月收费标准最低为24.0元/月,GPU云服务器中gn6i实例4核15G配置月付1681.00/1个月起,gn6v实例8核32G配置月付3817.00/1个月起。本文为大家整理汇总了阿里云服务器、轻量应用服务器、gpu云服务器的最新收费标准与活动价格情况,以表格形式展示给大家,以供参考。
|
1月前
|
机器学习/深度学习 人工智能 编解码
阿里云GPU云服务器优惠收费标准,GPU服务器优缺点与适用场景详解
随着人工智能、大数据分析和高性能计算的发展,对计算资源的需求不断增加。GPU凭借强大的并行计算能力和高效的浮点运算性能,逐渐成为处理复杂计算任务的首选工具。阿里云提供了从入门级到旗舰级的多种GPU服务器,涵盖GN5、GN6、GN7、GN8和GN9系列,分别适用于图形渲染、视频编码、深度学习推理、训练和高性能计算等场景。本文详细介绍各系列的规格、价格和适用场景,帮助用户根据实际需求选择最合适的GPU实例。
|
2月前
|
人工智能 弹性计算 编解码
阿里云GPU云服务器性能、应用场景及收费标准和活动价格参考
GPU云服务器作为阿里云提供的一种高性能计算服务,通过结合GPU与CPU的计算能力,为用户在人工智能、高性能计算等领域提供了强大的支持。其具备覆盖范围广、超强计算能力、网络性能出色等优势,且计费方式灵活多样,能够满足不同用户的需求。目前用户购买阿里云gpu云服务器gn5 规格族(P100-16G)、gn6i 规格族(T4-16G)、gn6v 规格族(V100-16G)有优惠,本文为大家详细介绍阿里云gpu云服务器的相关性能及收费标准与最新活动价格情况,以供参考和选择。
|
2月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU服务器全解析_GPU价格收费标准_GPU优势和使用说明
阿里云GPU云服务器提供强大的GPU算力,适用于深度学习、科学计算、图形可视化和视频处理等场景。作为亚太领先的云服务商,阿里云GPU云服务器具备高灵活性、易用性、容灾备份、安全性和成本效益,支持多种实例规格,满足不同业务需求。
506 2
|
5天前
|
人工智能 搜索推荐 数据库
实时云渲染技术赋能AIGC,开启3D内容生态黄金时代
在AIGC技术革命的推动下,3D内容生态将迎来巨大变革。实时云渲染与Cloud XR技术将在三维数字资产的上云、交互及传播中扮演关键角色,大幅提升生产效率并降低门槛。作为云基础设施厂商,抓住这一机遇将加速元宇宙的构建与繁荣。AIGC不仅改变3D内容的生成方式,从手工转向自动生成,还将催生更多3D创作工具和基础设施,进一步丰富虚拟世界的构建。未来,通过文本输入即可生成引人注目的3D环境,多模态模型的应用将极大拓展创作的可能性。
|
4天前
|
编解码 人工智能 算法
国家扶持超高清产业背景下:视频云AIGC的超高清技术实践
本次分享由阿里云视频云高级产品解决方案架构师陈震主讲,聚焦国家扶持超高清产业背景下,视频云AIGC的超高清技术实践。内容涵盖超高清产业发展趋势与挑战、阿里视频云的应对方案及应用案例。通过全链路超高清解决方案,结合AI、云计算等技术,提供从内容生产、传输到播放的完整支持,助力行业应对超高清视频带来的技术与市场挑战。
|
4天前
|
人工智能 编解码 安全
全球AI新浪潮:智能媒体服务的技术创新与AIGC加速出海
本文介绍了智能媒体服务的国际化产品技术创新及AIGC驱动的内容出海技术实践。首先,探讨了媒体服务在视频应用中的升级引擎作用,分析了国际市场的差异与挑战,并提出模块化产品方案以满足不同需求。其次,重点介绍了AIGC技术如何推动媒体服务2.0智能化进化,涵盖多模态内容理解、智能生产制作、音视频处理等方面。最后,发布了阿里云智能媒体服务的国际产品矩阵,包括媒体打包、转码、实时处理和传输服务,支持多种广告规格和效果追踪分析,助力全球企业进行视频化创新。

相关产品

  • GPU云服务器