阿里云于子淇:如何利用GPU云服务器加速AIGC训练|阿里云弹性计算技术公开课直播预告

简介: 本节课程,于子淇首先会对AIGC模型的实现原理进行介绍,然后分享阿里云基于弹性RDMA的GPU云服务器的技术特性,以及使用FastGPU在GPU云服务器上进行LLaMA模型部署的流程和finetune原理。最后,于子淇将从计算图优化和通信优化两个方面,讲解基于AIACC的LLaMA模型部署性能优化,并展示优化后的实际效果。本次课程将在阿里云官网、钉钉视频号、阿里云官方视频号、阿里云创新中心直播平台&视频号、阿里云开发者视频号等多个官方平台同步播出。

技术圈 1.png

6月起,阿里云弹性计算团队联合智东西公开课共同出品「阿里云弹性计算技术公开课」,主讲大模型的算力挑战、Stable-Diffusion AI绘画与AIGC模型训练加速。阿里云弹性计算产品专家张新涛、阿里云高级开发工程师吕倪祺、阿里云高级开发工程师于子淇三位技术专家将先后进行直播讲解。


目前,「阿里云弹性计算技术公开课」第一讲&第二讲已顺利完结,阿里云弹性计算产品专家张新涛以《大模型时代如何应对大算力挑战》为主题进行了直播讲解,阿里云高级开发工程师吕倪祺以《基于神龙AI加速 AIACC 加速 Stable-Diffusion AI绘画》为主题进行了精彩的直播讲解,错过直播的朋友可以点击【张新涛课程精彩回顾】&吕倪祺课程精彩回顾收看完整回放。


7月5日14:00,「阿里云弹性计算技术公开课」第三讲将开讲,由阿里云高级开发工程师于子淇主讲,主题为《如何利用GPU云服务器加速AIGC训练》。


阿里云GPU云服务器提供GPU加速计算能力,能够实现GPU计算资源的即开即用和弹性伸缩。同时配备阿里云自研的弹性RDMA网络,可以实现秒级的大规模RDMA组网,满足大模型计算过程中海量数据的高效传输需求。面向开发者,阿里云还推出了AI计算部署工具FastGPU,使开发者无需关注计算、存储、网络等资源的部署操作,即可达到简单适配、一键部署、随处运行的效果。


在第三讲,于子淇首先会对AIGC模型的实现原理进行介绍,然后分享阿里云基于弹性RDMA的GPU云服务器的技术特性,以及使用FastGPU在GPU云服务器上进行LLaMA模型部署的流程和finetune原理。最后,于子淇将从计算图优化和通信优化两个方面,讲解基于AIACC的LLaMA模型部署性能优化,并展示优化后的实际效果。


本次课程将在阿里云官网、钉钉视频号、阿里云官方视频号、阿里云创新中心直播平台&视频号、阿里云开发者视频号等多个官方平台同步播出。

 

公开课主题:如何利用GPU云服务器加速AIGC训练


1、AIGC模型的实现原理以及典型模型

2、基于阿里云 eRDMA 的 GPU 云服务器

3、FastGPU一键部署LLaMA流程及finetune原理解析

4、基于AIACC的性能优化及效果展示


阿里云官网直播时间:7月5日14:00-15:00


即刻扫描下方二维码 / 点击链接,免费预约直播

视频号封面9-16.jpg

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
3月前
|
并行计算 Shell TensorFlow
Tensorflow-GPU训练MTCNN出现错误-Could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED
在使用TensorFlow-GPU训练MTCNN时,如果遇到“Could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED”错误,通常是由于TensorFlow、CUDA和cuDNN版本不兼容或显存分配问题导致的,可以通过安装匹配的版本或在代码中设置动态显存分配来解决。
61 1
Tensorflow-GPU训练MTCNN出现错误-Could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED
|
14天前
|
人工智能 弹性计算 架构师
AIGC浪潮涌入高校,首届【弹性计算进校园】研讨会顺利举行
阿里云弹性计算团队于浙江工商大学,开展了首届【弹性计算进校园】交流活动。
|
27天前
|
人工智能 城市大脑 数据可视化
阿里云“山海计划”:基于UE引擎的“中国特色”城市场景AIGC方案
阿里云数据可视化产品DataV的三维交互团队近期研发了基于虚幻引擎与AIGC的中国城市三维场景的一站式生成服务,本文以建筑生成为切入点,从方法论出发逐步为大家展开一个宏大的、高度智能化的真实世界打造之旅。
159 23
|
2月前
|
SQL 数据可视化 关系型数据库
阿里云DataV“山海计划” x Epic Fab:“中国风AIGC”助力智慧城市建设
DataV“山海计划”根据中国城市规划特色,建立城市地块、建筑、道路等“城市要素知识库”,基于AI大模型技术生成更贴近“中国特色”的城市场景。基于DataV“山海计划”的UE引擎插件已经登陆Epic Fab,广大UE引擎开发者可以通过该插件免费体验城市历史悠久的广州场景三维资产。除了三维城市场景生成,DataV为智慧城市提供完整的数据看板解决方案,提供200+基础图表、支持API、MySQL、SQL Server、人大金仓、达梦等30+数据源,通过DataV与UE引擎,广大开发者可以低成本获得“智慧城市”开发方案,将更多精力放在满足用户业务需求上,从而提升智慧城市项目的交付质量。
155 2
|
3月前
|
人工智能 语音技术 UED
仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究
【10月更文挑战第19天】中国科学院计算技术研究所提出了一种名为LLaMA-Omni的新型模型架构,实现与大型语言模型(LLMs)的低延迟、高质量语音交互。该模型集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够在不进行语音转录的情况下直接生成文本和语音响应,显著提升了用户体验。实验结果显示,LLaMA-Omni的响应延迟低至226ms,具有创新性和实用性。
78 1
|
5月前
|
机器学习/深度学习 并行计算 PyTorch
GPU 加速与 PyTorch:最大化硬件性能提升训练速度
【8月更文第29天】GPU(图形处理单元)因其并行计算能力而成为深度学习领域的重要组成部分。本文将介绍如何利用PyTorch来高效地利用GPU进行深度学习模型的训练,从而最大化训练速度。我们将讨论如何配置环境、选择合适的硬件、编写高效的代码以及利用高级特性来提高性能。
901 1
|
5月前
|
机器学习/深度学习 人工智能 运维
"颠覆传统运维!揭秘阿里云AIGC如何化身运维界超级大脑,让故障预警、智能告警不再是梦,运维大神之路从此开启!"
【8月更文挑战第14天】随着AI技术的发展,AIGC正革新依赖人工经验的传统运维行业。阿里云凭借其领先的云计算能力和AI服务生态,为运维智能化提供了坚实基础。通过分析历史数据和系统日志,AIGC能自动发现并预测故障,大幅提升运维效率。例如,结合阿里云SLS和PAI,可构建智能告警系统,实现异常检测和实时预警。随着AIGC技术的进步,运维领域将迎来全面智能化转型,开启运维新时代。
147 3
|
5月前
|
并行计算 算法 调度
自研分布式训练框架EPL问题之提高GPU利用率如何解决
自研分布式训练框架EPL问题之提高GPU利用率如何解决
|
2月前
|
弹性计算 人工智能 Serverless
阿里云ACK One:注册集群云上节点池(CPU/GPU)自动弹性伸缩,助力企业业务高效扩展
在当今数字化时代,企业业务的快速增长对IT基础设施提出了更高要求。然而,传统IDC数据中心却在业务存在扩容慢、缩容难等问题。为此,阿里云推出ACK One注册集群架构,通过云上节点池(CPU/GPU)自动弹性伸缩等特性,为企业带来全新突破。
|
2天前
|
机器学习/深度学习 人工智能 PyTorch
阿里云GPU云服务器怎么样?产品优势、应用场景介绍与最新活动价格参考
阿里云GPU云服务器怎么样?阿里云GPU结合了GPU计算力与CPU计算力,主要应用于于深度学习、科学计算、图形可视化、视频处理多种应用场景,本文为您详细介绍阿里云GPU云服务器产品优势、应用场景以及最新活动价格。
阿里云GPU云服务器怎么样?产品优势、应用场景介绍与最新活动价格参考

相关产品

  • 云服务器 ECS
  • GPU云服务器