去年11月ChatGPT一经发布,5天达成百万用户,2个月月活用户达1亿,成为历史上用户增长最快的应用。
ChatGPT的爆火,使得大模型受到了空前的关注。Google、Meta迅速加入战局;百度、阿里云、腾讯、字节跳动、华为等大厂争相发布自己的大模型,比如阿里云的通义千问;国内外科技大佬和技术大牛也纷纷下场创业。
不过,大模型动辄千亿规模的参数量,极大的算力需求以及强大的算法能力要求,使得训练大模型往往成本高昂且对技术要求极高。
以1750亿参数的GPT-3为例,训练一天需要的算力是3640PFlops,使用1024块NVIDIA A100 GPU,不间断的计算也要一个月的时间才能完成训练。同时还要根据模型特点,对训练平台的动态内存分配、通信效率和计算利用率等进行针对性的优化,使训练平台的计算性能达到最优,从而提升大模型的训练速度。
那么,在大模型时代,企业如何应对大算力挑战?如何高效搭建大模型开发环境?如何训练自己的专属大模型呢?
为此,智东西公开课联合阿里云弹性计算团队共同出品「阿里云加速AIGC技术公开课」,阿里云弹性计算产品线异构计算产品专家张新涛、阿里云高级开发工程师吕倪祺、阿里云高级开发工程师于子淇三位技术专家将先后进行直播讲解。
张新涛现负责阿里云异构计算软件及解决方案、产品管理与上市以及产品经营工作,曾主导设计异构GPU产品、弹性加速实例产品、弹性云桌面产品等重要产品。6月20日,张新涛将带来第一讲的直播讲解,主题为《大模型时代如何应对大算力挑战》。
第二讲将于6月26日开讲,由阿里云高级开发工程师吕倪祺主讲,主题为《基于AIACC加速器快速实现Stable-Diffusion AI绘画》。吕倪祺主要负责神龙AI推理加速套件的框架开发和性能优化,开发了PyTorch推理加速引擎AIACC-TORCH、算子深度加速引擎AIACC-MLIR框架,参与视频、语音、LLM、AIGC等领域的性能调优工作。
7月3日,阿里云高级开发工程师于子淇将以《如何利用GPU云服务器加速AIGC训练》为主题带来第三讲的直播讲解。于子淇现负责阿里云神龙AI训练加速引擎AIACC-Training的训练性能优化,研发AIACC1.x以及 2.0两大版本,包括NCCL集合通信算子优化、Socket/RDMA通信优化、AIACC-Kernel计算优化、弹性训练、AI框架无感工程化等分布式训练的系统级优化工作。
「阿里云加速AIGC技术公开课」将在智东西多平台以视频直播形式进行,阿里云&钉钉多个官方平台&渠道将进行节目回放。
对【阿里云加速AIGC技术公开课】感兴趣的朋友,可以点击下方链接预约直播回放:
大模型时代如何应对大算力挑战:https://developer.aliyun.com/live/252024
基于AIACC加速器快速实现 Stable-Diffusion AI绘画:https://developer.aliyun.com/live/252025
如何利用GPU云服务器加速AIGC训练:https://developer.aliyun.com/live/252026