【ICDE 2022】稀疏模型训练框架HybridBackend,单位成本下训练吞吐提升至5倍

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 近日,阿里巴巴投稿的论文《PICASSO: Unleashing the Potential of GPU-centric Training for Wide-and-deep Recommender Systems》被数据库和数据挖掘方向CCF-A类国际三大顶会之一的ICDE 2022 (International Conference on Data Engineering) 接收。

作者:石浪、满神  


近日,阿里巴巴投稿的论文《PICASSO: Unleashing the Potential of GPU-centric Training for Wide-and-deep Recommender Systems》被数据库和数据挖掘方向CCF-A类国际三大顶会之一的ICDE 2022 (International Conference on Data Engineering) 接收。ICDE 2022 将于今年5月9日至5月13日在马来西亚吉隆坡线上召开,届时将汇集工业级和学术界的顶级学者共同探讨数据密集型的系统和应用相关的热点问题。此次论文入选,意味着阿里云机器学习平台PAI自研的面向工业级稀疏模型的高性能训练框架(PAI-HybridBackend)达到了世界先进水平,得到了业界的广泛认可。  


为了回馈社区并推动技术进步,阿里云机器学习平台PAI已经将HybridBackend框架开源, 欢迎大家试用和技术共建。  


开源地址https://github.com/alibaba/HybridBackend


背景

以搜索,推荐,广告业务为主要应用的稀疏模型训练系统一直是学界和业界研究的研究热点之一。相比于计算机视觉(CV)和自然语言处理(NLP)为代表的稠密模型训练,稀疏模型针对离散型特征(以categorical ID作为训练数据)使用的Embedding特征表达有着百GB至数十TB级别的内存占用消耗(比普通的CV, NLP模型参数高出一到两个数量级), 从而突破了单机的内存容量限制,需要基于分布式系统的训练方案。


早期的此类分布式任务由于模型结构相对简单并且更新迭代缓慢,往往采用定制化的参数服务器(Parameter Server, PS)系统在大规模的CPU集群上进行训练。随着Tensorflow为代表的通用机器学习编程框架的出现,以及深度神经网络(DNN)在推荐类模型上的流行(deep recommender systems),业界逐渐转向基于通用机器学习编程框架(TensorFlow, PyTorch等)来进行模型的端到端训练和推理,但是此时依然以参数服务器(PS)和大规模CPU集群作为训练的范式和基础设施。  


面临挑战


近年来,随着稀疏模型对算力日益增长的需求(比如Attention等结构的加入), CPU集群必须不断扩大集群规模来满足训练的时效需求,这同时也带来了不断上升的资源成本以及实验的调试成本。以NVIDIA GPU为代表的加速器(accelerator)则弥补了CPU设备单位成本算力低下的劣势,在CV,NLP等算力需求大的训练任务上的应用已经成为行业共识。然而实践证明,如果只是简单地将PS训练范式中的worker从CPU设备替换为GPU设备,并不能有效地提升训练任务的吞吐,通过profiling GPU的使用率,发现大量的GPU算力资源被闲置浪费。这说明相比与CV, NLP类任务,稀疏模型训练有着自身的模型结构和训练数据的特性,使得传统的PS训练范式不能有效地发挥出GPU设备的优势。以深度推荐系统经典的Wide and Deep模型结构和Tensorflow框架为例, 我们分析并总结了在PS架构下使用GPU设备训练的两个问题。


变化的硬件资源瓶颈  

1.png


从上图的Wide and Deep模型结构可以看出,稀疏训练主要由Embedding阶段, 特征交叉(feature interation)阶段和多层感知器(MLP)阶段组成,其中Embedding阶段在PS范式的训练下占据了至少50%以上的训练时间。


经过分析发现,Embedding阶段的算子主要以访存密集型(memory access intensive)和通信密集型的算子(communication intensive)为主,主要需要的硬件资源是内存和网络的带宽,而后两个阶段的算子则是计算密集型的算子占主导, 需要的资源是算力。这意味着在PS的范式训练下,任何一个阶段都有可能存在某一种硬件资源成为瓶颈而其他硬件资源被浪费的现象。以GPU的算力资源为例,我们观察GPU使用率(SM Util)在不同的训练阶段之间呈现脉冲式变化(pulse)。  

2.png


算子细碎化(fragmentation)

生产实际中的模型往往拥有上百路的Embedding特征查询,每一路的特征查询在Tensorflow内都会调用数十个算子操作(operations)。TensorFlow的引擎在调度上千级别的大量的算子操作需要额外的CPU线程开销; 对于GPU设备来说, 过多的CUDA kernel提交到流处理器上(Tensorflow下每个GPU设备只有一个stream抽象)造成了GPU Stream Multiprocessor (SM)的调度开销,同时每个算子处理数据的并发度又不高,从而很难打满GPU的计算单元。类似的问题在CV,NLP等稠密模型的训练中也有涉及,一般采用基于编译技术的优化手段进行算子合并。在Wide and Deep模型这样的稀疏场景下,Embedding阶段的这些算子又往往具有dynamic shape的特点,在Tensorflow静态构图阶段无法获取准确的算子尺寸进行优化,导致类似Tensorflow-XLA等技术在此类场景下没有明显的收益。  


这些问题说明,想要发挥出GPU等高性能硬件资源的极致性价比,提高单位成本下的训练吞吐,就必须设计新的训练框架。据我们了解,拥有大型搜索,广告,推荐业务的国内外企业以及硬件厂商都在着手进行新框架的研发,比如NVIDIA的Merlin-HugeCTR[1]等,然而集团内云上集群普遍部署的是通用计算节点,且集群上需要执行多种异构的任务,换用专用硬件是很昂贵且不切实际的。基于这种实际需求,我们推出了HybridBackend,同时能够适应集团内多元化且不断演进的稀疏模型技术。下文中我们将简要介绍HybridBackend背后的系统架构设计和技术亮点。


应对破局:HybridBackend的系统架构

传统的参数服务器(PS)训练范式,体现的是通过扩展硬件数量来适应模型训练规模的思路,而我们的系统则是同时考虑到了硬件和软件(模型)两个层面的特点而做到协同设计。高性能GPU集群的硬件特性决定了基本的训练范式,而稀疏模型本身的结构特点和数据分布带来的问题则通过更精细的系统优化手段来解决。


利用大BatchSize进行同步训练

因为GPU设备相对于CPU带来的巨大的算力提升,以往需要上百台CPU节点的集群可以用几十台机器的GPU集群来代替。要保持相同的总训练规模,同时提升单个GPU节点上的资源利用率,提升单个GPU worker上的batch size成为必然的选项,同时因为集群规模的缩小,可以通过同步训练的方式来有效避免过期梯度(staleness)从而提升模型训练的精度。相对于CPU设备之间通过PCIe以及TCP进行网络通信,高性能的GPU集群在单个节点内的多个GPU设备之间往往配备了高速的网络互连(NVLink, NVSwitch), 这些高速连接的带宽通常是TCP网络带宽的数百倍(第一代NVLINK标定达到300GB/s), 而在多个机器节点之间也可以配备基于RDMA技术的高速网络设备,达到100-200Gbps的带宽。选择同步训练的第二个好处是可以利用高性能的集合通信算子库(NVIDIA NCCL, 阿里自研的ACCL等)来有效地利用硬件机器的网络拓扑结构来提升通信的性能,这些通信库已经在CV, NLP之类的基于数据并行的同步训练任务上取得了很好的效果。

使用资源异构而角色同构的训练单元

3.png


PS训练范式在系统的逻辑层面会指定不同的训练角色, 比如server, worker, evaluator。比如server节点一般分配具有大内存的CPU机器,而worker节点则会被分配到高主频的计算型CPU硬件上。这样形成了训练单元-任务角色-同构资源的耦合,通过增加训练单元数量来水平扩展(scale out)训练的规模。而在高性能的GPU集群上,一个物理的机器节点往往包括多种异构的硬件资源,如CPU, GPU处理器,GPU之间的高速互连,DRAM内存,Non-volatile Memory等。这样除了水平扩展节点数量外,还可以通过垂直扩展利用多种异构硬件资源来达到扩大训练规模的目标。针对这种硬件架构,我们的系统设计中只保留统一的一种训练单元(Executor), 每个Executor通过内部的异构硬件资源来执行不同的训练任务角色。一方面,Executor内部任务执行时可以有效地利用底层硬件资源之间的locality来加速训练,另一方面,Executor内部的硬件资源可以同时满足不同的分布式训练范式所需要的硬件资源,而方便我们在模型结构的不同部分进行混合的并行训练策略。


深入优化:HybridBackend的技术亮点

在上述的系统架构设计之下,因为稀疏模型结构和训练数据本身的特性,阶段性的资源需求变化和算子细碎化的问题还是会影响GPU等硬件设备的使用率。举例来说,同步训练范式下所有Executor在通过集合通信进行embedding的shuffle时,网络带宽资源成为瓶颈,而GPU的计算资源被闲置。一种解决思路是对硬件资源进行定制化,比如增加网络带宽资源来消除通信瓶颈,但是这样的做法会使得硬件的资源配置和特定的模型结构耦合,是专用推荐系统的老思路。我们的目标还是希望系统可以架构在云服务上可得的,数量容易水平扩展的通用硬件配置之上(commodity hardware)。某些硬件厂商也尝试通过Huge kernel的形式(将Embedding层所有的计算手工融合到一个kernel内)来解决 算子细碎化的问题, 这样的做法也很难支持模型结构快速迭代的需求, 背离了通用编程架构的设计初衷。  

据此,我们从软硬协同的思路出发,设计了如下的几个系统优化手段:


基于数据和算子感知的合并

4.png


根据稀疏模型的结构特点,大部分细碎的算子来源于庞大的Embedding特征查询(lookup)数量,我们设计了D-Packing这一优化技术。对于每一路查询,尽管输入的训练数据不同,但使用的算子组合是相同的。对于这种具有数据并行特点的模式,具有相同属性(维度、初始化器、标定特征组等)的Embedding表将被合并为一张新的Embedding表,而后后续的访存查询算子也可以被合并为一个新的大算子。合并算子可以用多线程的方式有序查询Embedding,相对于乱序查询或分成若干小表查询,能有显著的性能提升。查询完毕后,再依原有代码需要进行反去重和归位,真正做到了对用户透明。此外通过分析特征查询阶段各个算子在分布式环境下的语义,我们将部分的kernel进行融合K-Packing, 比如通过融合shuffle和stitch算子来消除冗余的数据拷贝。通过数据和算子两个维度的基于语义的融合,我们既减少了总体的算子数量,降低fragmentation, 同时又避免了所有算子融合在一起而丢失了下文叙述的通过算子间穿插遮掩来提升硬件利用率的优化机会。


基于硬件资源瓶颈感知的交错执行

5.png


为了消除同时执行相同硬件资源需求的算子而造成的瓶颈, 我们设计了两种算子穿插遮掩执行(interleaving)的优化手段。1) D-Interleaving是通过对训练数据batch的切分利用pipeline的机制来调度穿插不同资源类型的算子,这样可以在训练的任何阶段缓解某一种资源的瓶颈。比如在大batch size的训练场景下,稀疏模型的MLP阶段也会产生很高的feature map显存占用,通过D-Interleaving就可以有效降低单个GPU设备上的峰值显存占用,从而使得更大的batch size训练成为可能。2)K-Interleaving是在Embedding Layer内部不同的特征查询路数之间做算子的穿插和遮掩,比如将通信密集的Shuffle操作和内存访问密集的Gather进行遮掩,可以有效提升这两种资源的使用率。


基于数据频次感知的参数缓存

6.png


在解决Executor内部多个级别的存储(GPU显存,DRAM等)之间的带宽和延迟问题上,我们针对稀疏模型训练数据的分布特点,提出了一种感知数据访问频次分布的caching机制。通过统计训练数据的ID,将最热的访问数据缓存到GPU的显存中,而冷数据以及哈希表结构则存放在主内存中,主内存中的数据将根据ID的访问频率变化,定期将topk的高频ID对应的embeddings刷新到GPU显存上的缓存中。这样的混合存储可以同时结合GPU显存的高带宽和DRAM的容量,后续这套混合存储的设计还可以扩展到包含Intel Persistent Memory, Non-volatile Memory等更多的硬件设备上。


业务落地

HybridBackend已经成功在智能引擎事业部XDL训练平台团队定向广告业务中有了落地,本文的实验中也介绍了在阿里妈妈CAN模型下HybridBackend相对于上一代的训练框架(基于Parameter Server模式)获得的性能优势,在下表中可以看到在训练时长等多个指标下获得的显著提升。

1.jpg


同时我们还以阿里妈妈定向广告一年累计的训练数据上对模型的规模增长下的HybridBackend性能表现做了测试,结果如下表所示。可以看到在使用128张GPU进行千亿规模参数模型的训练时,同样是消费1年的数据量,高性能集群上的HybridBackend仅仅需要2天的时间完成训练任务,而普通集群上的PS模式则需要约1个月的时间。

2.jpg


参考文献

[1] Oldridge, Even, Julio Perez, Ben Frederickson, Nicolas Koumchatzky, Minseok Lee, Zehuan Wang, Lei Wu et al. "Merlin: A GPU Accelerated Recommendation Framework." In Proceedings of IRS . 2020.  

论文详情

论文标题:PICASSO: Unleashing the Potential of GPU-centric Training for Wide-and-deep Recommender Systems  


论文作者: 张远行、陈浪石(并列一作)、杨斯然、袁满、易慧民、张杰、王家忙、董建波、许云龙、 宋钺、李永、张迪、林伟、曲琳、郑波  


论文链接: https://arxiv.org/abs/2204.04903


开源地址https://github.com/alibaba/HybridBackend



相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
107 4
|
3月前
|
机器学习/深度学习 人工智能 Shell
人工智能平台PAI操作报错合集之在分布式训练过程中遇到报错,是什么原因
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
12天前
|
存储 人工智能 并行计算
Pai-Megatron-Patch:围绕Megatron-Core打造大模型训练加速生态
Pai-Megatron-Patch(https://github.com/alibaba/Pai-Megatron-Patch)是阿里云人工智能平台PAI研发的围绕Nvidia MegatronLM的大模型开发配套工具,旨在帮助开发者快速上手大模型,完成大模型(LLM)相关的高效分布式训练,有监督指令微调,下游任务评估等大模型开发链路。最近一年来,我们持续打磨Pai-Megatron-Patch的性能和扩展功能,围绕Megatron-Core(以下简称MCore)进一步打造大模型训练加速技术生态,推出更多的的训练加速、显存优化特性。
|
25天前
|
机器学习/深度学习 Python
训练集、测试集与验证集:机器学习模型评估的基石
在机器学习中,数据集通常被划分为训练集、验证集和测试集,以评估模型性能并调整参数。训练集用于拟合模型,验证集用于调整超参数和防止过拟合,测试集则用于评估最终模型性能。本文详细介绍了这三个集合的作用,并通过代码示例展示了如何进行数据集的划分。合理的划分有助于提升模型的泛化能力。
|
28天前
|
机器学习/深度学习 人工智能 算法
ML.NET:一个.NET开源、免费、跨平台的机器学习框架
ML.NET:一个.NET开源、免费、跨平台的机器学习框架
|
2月前
|
机器学习/深度学习 资源调度 分布式计算
阿里PAI-ChatLearn:大规模 Alignment高效训练框架正式开源
PAI-ChatLearn现已全面开源,助力用户快速、高效的Alignment训练体验。借助ChatLearn,用户可全身心投入于模型设计与效果优化,无需分心于底层技术细节。ChatLearn将承担起资源调度、数据传输、参数同步、分布式运行管理以及确保系统高效稳定运作的重任,为用户提供一站式解决方案。
|
2月前
|
机器学习/深度学习 PyTorch TensorFlow
机器学习框架调研
机器学习框架调研
32 1
|
2月前
|
机器学习/深度学习 数据采集 人工智能
揭秘大型机器学习模型背后的秘密:如何在技术深度与广度之间找到完美平衡点,探索那些鲜为人知的设计、训练与部署技巧,让你的作品脱颖而出!
【8月更文挑战第21天】大型机器学习模型是人工智能的关键方向,借助不断增强的计算力和海量数据,已实现在学术与产业上的重大突破。本文深入探讨大型模型从设计到部署的全过程,涉及数据预处理、模型架构(如Transformer)、训练技巧及模型压缩技术,旨在面对挑战时提供解决方案,促进AI技术的实用化进程。
45 1
|
2月前
|
机器学习/深度学习 分布式计算 Cloud Native
云原生架构下的高性能计算解决方案:利用分布式计算资源加速机器学习训练
【8月更文第19天】随着大数据和人工智能技术的发展,机器学习模型的训练数据量和复杂度都在迅速增长。传统的单机训练方式已经无法满足日益增长的计算需求。云原生架构为高性能计算提供了新的可能性,通过利用分布式计算资源,可以在短时间内完成大规模数据集的训练任务。本文将探讨如何在云原生环境下搭建高性能计算平台,并展示如何使用 PyTorch 和 TensorFlow 这样的流行框架进行分布式训练。
71 2
|
2月前
|
机器学习/深度学习 JSON API
【Python奇迹】FastAPI框架大显神通:一键部署机器学习模型,让数据预测飞跃至Web舞台,震撼开启智能服务新纪元!
【8月更文挑战第16天】在数据驱动的时代,高效部署机器学习模型至关重要。FastAPI凭借其高性能与灵活性,成为搭建模型API的理想选择。本文详述了从环境准备、模型训练到使用FastAPI部署的全过程。首先,确保安装了Python及相关库(fastapi、uvicorn、scikit-learn)。接着,以线性回归为例,构建了一个预测房价的模型。通过定义FastAPI端点,实现了基于房屋大小预测价格的功能,并介绍了如何运行服务器及测试API。最终,用户可通过HTTP请求获取预测结果,极大地提升了模型的实用性和集成性。
140 1

相关产品

  • 人工智能平台 PAI
  • 下一篇
    无影云桌面