2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
以下内容为专场精华部分:
阿里云智能集团资深技术专家,异构计算产品技术负责人 王超
阿里云智能集团资深技术专家、异构计算产品技术负责人王超在开场介绍了阿里云AI Infra的产品架构,并围绕用户如何在阿里云灵骏产品上进行AI大模型的开发、训练、应用等动作进行了全方位解析。
在阿里云 AI Infra 基础设施中,底层计算网络包括VPC网络、存储、计算网络管控、裸金属管控。在此之上引入了高性能计算网络HPN 7.0架构,并逐步演进到HPN8.0架构,从而实现新的数据流通方式、路由和拓扑结构。
在物理资源管控层,下一代基础设施的关键创新之一是x link domain,它定义了新的计算单元边界。NVIDIA在2024GTC上发布了代表下一代最小计算单元的GB200 NVL72卡,它从单服务器扩展至机架级别,采用模块化设计、综合布线以及液冷散热方案以适应更高的功率密度。
在容器计算层面,我们将GPU监控管理、通信库集成及核心调度整合到SS调度控制器中,取代现有的VM层级控制,目标是从面向资源调度转至面向任务调度。通过统一抽象语句增强调度能力,如故障切换、任务迁移等,并开发全球调度系统来优化全球范围内的资源管理和任务协调。这些底层技术改进将支持上层AI应用的发展,例如模型服务、社区建设以及其他PaaS层服务,确保整个AI生态系统能够高效运行并持续发展。
为什么AI基础设施要走向全球调度?在AGI时代,传统的区域(region)和可用区(AZ)级别的资源选择已不再适用,原因如下:
- 计算需求激增:AI应用的计算量极大,单个可用区内无法无限制扩展,因此集群部署需要提升到区域级别
- AI推理延时容忍度增加:与大数据在线业务不同,AI应用,如图像生成或语言处理有几百毫秒的延时是可接受的,这使得跨洋通信变得可行
- 资源位置重要性降低:由于应用本身产生的延时远大于数据传输延时,关键在于能否高效地将任务分配给合适的计算资源,而非这些资源的具体位置
因此,通过建立全球调度系统,我们可以把全球范围内的资源看作一个统一池,实现更灵活的任务及资源匹配,利用容器化技术进行高效的全球资源调度。
阿里云智能集团高级技术专家 张彭城
阿里云智能集团高级技术专家张彭城带来的主题报告是《大模型训练稳定性思考和实践》,主要介绍了阿里云灵骏产品如何解决大模型训练过程中最常见的稳定性问题。通过分析其原因及影响,张彭城介绍了实用的稳定性提升方法、工具和工程实践,帮助研究者和开发者更好地理解和解决大模型训练中的稳定性挑战。
张彭城介绍到目前大模型训练在稳定性维度面临着集群规模巨大、硬件故障率高、故障定位复杂这三大挑战。同时也着重介绍了阿里云大模型训练稳定性系统(上图),当前系统总体目标为:
- 事前预防:降低故障发生概率
- 事中容错:故障快速定位和恢复,降低训练损失
在交付前及运行中两个阶段包含了三大系统:健康监测系统、故障自愈系统、实时可观测系统,可有效保障训练稳定性。
他还分享了解决大模型训练问题的最佳实践,包括在稳定性方面遇到的网络link故障检测和热维修、集群网络故障定位、训练任务hang和slow问题定位等。为了解决大规模集群中的网络链路故障,阿里云采用了双上联网络架构,支持在线热维修和交换机升级,通过端网协同监控和高精度网络监控快速定位和修复问题。此外,利用集合通信日志的中心化诊断来高效识别性能瓶颈和故障节点,同时探索热迁移技术以进一步提高系统稳定性。
阿里云智能集团弹性计算资深技术专家 郑晓
阿里云智能集团弹性计算资深技术专家郑晓的演讲主题是《推理降本与提升资源效率的实践》,内容围绕随着人工智能应用的迅猛增长,推理的成本与效率成为了决定大模型业务成功与否的关键因素。他深入分享了当前推理技术的发展趋势及其对GPU计算实例的新要求。
郑晓在分享中重点提到如何高效部署大模型,需要从两个方向考虑:业务方向和架构方向。
业务方向:
- 确定应用场景(如对话、代码补全、长文本处理等)
- 定义服务等级目标(SLO),包括token延迟和吞吐量
- 准备数据集以评估GPU选型和架构选择是否满足SLO
架构方向:
- 选择合适的GPU(例如A10系列、L系列或Hopper系列)
- 选用适合的推理引擎(如vLLM或其他厂商提供的解决方案)
- 管理GPU资源,监控运行状态,并在容器中进行细粒度控制
郑晓提到在部署大模型推理时,需要关注两个关键点:prefill(编码)和decoding(解码)。prefill阶段对算力要求高,而decoding阶段对显存带宽要求高。要实现高效部署,首先需明确业务场景、定义SLO(如token延迟和吞吐量)、选择合适的数据集和GPU卡,并根据模型大小和KV缓存需求规划显存用量。此外,选择优化的推理框架和策略(如page attention、flash attention)可以显著提升性能。最后,使用KuberGPU等工具进行细粒度的GPU资源管理和调度,可以提高利用率并降低成本。
阿里云智能集团存储专家 何邦剑
阿里云智能集团存储产品专家何邦剑带来了题为《并行文件存储在大模型训练中的探索与实践》的分享,介绍了并行文件存储CPFS面向大模型训练场景的优化效果:CPFS提供TB/s级的吞吐和千万IOPS,满足模型训练对性能的核心诉求。CPFS也可以通过提供灵活的数据管理能力,在降低数据存储成本的同时提升客户的使用体验。
CPFS针对高性能计算场景设计具有以下三个核心特点:
- 超高性能:基于全NVMe介质和RDMA高速网络,采用全并行分布式架构,支持数据和元数据的并行访问,无单点瓶颈,客户端可以同时访问所有存储节点,并利用GPU本地资源进行缓存加速
- 普惠经济:支持与OSS的数据流动,冷数据可以流转到OSS或HDD大容量层,热数据则保留在NVMe层,从而优化存储成本
- 简单易用:支持多计算平台共享访问同一文件系统,提供目录配额和权限隔离,记录用户操作以实现文件生命周期的可追溯性
何邦剑重点介绍了CPFS的典型客户——零一万物,它是国际AI专家李开复博士创立的AI大模型公司,致力打造AI 2.0时代的大模型前沿技术及软件应用。零一万物在实际业务场景中面临着:高吞吐+低延时文件存储、性能弹性扩展、海量数据存储管理及流动三大需求。在选择CPFS加速模型训练后,零一万物实现了智算CPFS与PAI平台无缝集成,支撑千卡级模型训练集群;实现百GB以上吞吐能力;吞吐、IOPS随容量增长线性扩展,提升了系统敏捷性;实现CPFS与OSS数据流动,有效降低海量数据的存储和管理成本。
阿里云智能集团弹性计算高级技术专家 林立翔
阿里云智能集团弹性计算高级技术专家林立翔的演讲题目是《分布式大模型训练的性能建模与优化》,主要探讨了分布式大模型训练的性能建模方法,模型并行、数据并行、混合并行等策略的性能分析和针对不同硬件架构和模型结构的优化技术,这些都旨在帮助研究人员和工程师更好地理解并优化大模型训练的性能。
林立翔介绍在大模型性能分析中,采用了两种方法论:自顶向下(top-down)和自底向上(bottom-up),并开发了两个工具来支持这两种方法论:Model Performance Profile 和 Model Performance Calculate。
自顶向下(top-down):
- 从整体模型结构开始,逐步拆分到分布式策略、计算和通信算子
- 将模型分解为前向传播、后向传播和优化器等部分
- 进一步细分为更基础的计算和通信算子,如矩阵运算和通信操作(例如reduce和all-reduce)
- 将这些算子映射到具体的硬件资源上,包括GPU加速器、CPU内存以及网络接口卡(NIC),并考虑整个集群和交换机的性能表现
通过上述方法可以从宏观层面逐步细化,找出性能瓶颈并进行优化。
自底向上(Bottom-Up):
- 从集群、交换机、GPU、CPU和网卡的规格信息开始,收集详细的硬件配置数据
- 根据硬件规格,组装计算和通信算子的性能指标
- 逐步构建Transformer单层的性能模型,了解其在不同硬件配置下的表现
- 通过叠加不同的并行策略(如数据并行DP、张量并行TP、流水线并行PP等),模拟出整个大模型预训练的实际性能
通过上述方法可以从微观层面逐步构建完整的性能模型,确保每个组件都能达到最优性能。
这两个工具结合使用,可以帮助我们在大模型训练过程中进行全面的性能分析和优化,从而提高整体训练效率。Model Performance Profiler 侧重于从宏观到微观的性能剖析,而 Model Performance Calculator 则侧重于从硬件规格出发,逐层构建性能模型。这两种方法相辅相成,确保我们在不同层次上都能准确地识别和解决性能问题。
阿里云智能集团弹性计算高级技术专家 李亮
阿里云智能集团弹性计算高级技术专家李亮的演讲主题是《GPU安全容器面临的问题和挑战》,他对通过硬件虚拟化解决GPU容器安全性隔离问题后带来的性能和资源开销问题,及其应对方案进行了详细阐述。同时还介绍了实现安全容器状态迁移的技术路径和发展现状。
李亮在分享中介绍了GPU安全容器的背景,他提到阿里云提供了多种GPU算力产品形态,包括GPU裸金属、GPU虚拟机和GPU安全容器。随着容器技术的普及,我们意识到提供GPU容器产品可以进一步提升用户使用GPU算力的便捷性。GPU安全容器具有更细粒度的资源分配能力和更高的安全性,能够为用户提供更多便利。
GPU安全容器在普通容器的基础上增加了硬件虚拟化层,以提供更强的安全隔离。优点是通过硬件虚拟化,不同容器之间可以实现有效的安全隔离,允许多租户在同一台机器上使用容器,不用担心安全问题。缺点则是引入虚拟化会带来额外的资源开销,虚拟化也可能导致GPU性能下降。
阿里云智能集团弹性计算高级技术专家 唐小川
阿里云智能集团弹性计算高级技术专家唐小川带来的主题分享是《灵骏智算实例异常预测技术》,重点介绍灵骏智算集群稳定性创新技术。在常规实时监控等运维能力基础之上,灵骏智算实例基于对过往大规模、多维度、长时期的监控数据做了深度分析和建模学习,因此能够准确预测并预警异常状况,实现在问题影响到业务运行之前就进行干预。这种预防性维护的技术创新,结合自动化运维动作,为客户的业务稳定性和可靠性提供了坚实的保障。
唐小川在分享中介绍到,在今天的大模型训练场景下, 稳定性需求变得尤为突出。在大规模集群中,如16000张GPU卡进行同步工作时,任何单点故障(无论是GPU、网络还是其他组件)都可能导致整个任务中断并需要重启。这种情况下,木桶效应非常明显,一个小小的故障会影响整个集群的稳定性。
所以理想状态下,唐小川认为在基础设施层面,应该做好以下几点来提升稳定性:
- 指标监控:全面且实时监控关键性能指标,及时发现潜在问题
- 故障检测与预测:通过先进的算法和工具,提前检测和预测可能的故障
- 自动容错设计:设计高可用性和容错机制,确保单点故障不会影响整个集群
- 任务性能感知:实现对客户任务性能的在线感知,直接反馈业务服务质量
这样做的目标是提供一个稳定的算力基础设施,而不是让用户自己去应对复杂的运维挑战。分享中特别强调了建设异常预测能力的重要性,这使系统能在业务运行过程中,预见并主动干预潜在问题。结合诸如热迁移等高级运维操作,有效拉长连续稳定运行周期,进一步提升算力资源的利用效率。
在演讲最后,唐小川表示目前阿里云的预测算法准确率可达95%以上,推理模块轻量化设计可部署在端侧,减少了对实时数据传输的网络开销需求,同时保护了用户的数据隐私。该模块资源消耗低,峰值时不超过0.13个CPU和700兆内存,不使用GPU算力,使得用户可以更放心、更方便地使用预测能力。
点击链接可回看完整现场直播:https://yunqi.aliyun.com/2024/group?groupId=9453