PICASSO,一个高效的搜推广稀疏训练解决方案

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
智能开放搜索 OpenSearch向量检索版,4核32GB 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
简介: 近日,阿里巴巴自研稀疏训练引擎论文《PICASSO: Unleashing the Potential of GPU-centric Training for Wide-and-deep Recommender Systems》被国际数据工程顶级会议ICDE 2022 (International Conference on Data Engineering)收录。文中介绍了名为PICASSO(Packing, Interleaving and Caching Augmented Software System Optimization)的训练引擎所使用的核心技术。

作者:张远行,陈浪石,宋钺,袁满

来源:智能引擎事业部、阿里妈妈广告技术部、阿里云计算平台事业部


一、整体情况概述


近日,阿里巴巴自研稀疏训练引擎论文《PICASSO: Unleashing the Potential of GPU-centric Training for Wide-and-deep Recommender Systems》被国际数据工程顶级会议ICDE 2022 (International Conference on Data Engineering)收录。文中介绍了名为PICASSO(Packing, Interleaving and Caching Augmented Software System Optimization)的训练引擎所使用的核心技术。PICASSO是阿里巴巴智能引擎事业部广告训练引擎XDL团队和阿里云计算平台PAI团队深度合作研发的成果,在集团内部PICASSO作为XDL2、PAI-Tensorflow和PAI-HybridBackend三个产品服务于搜索、推荐、广告业务。


搜推广模型训练的性能会直接影响到迭代开发效率及模型时效性,如今已是一项非常热门的研究主题。作为国际最大的电商平台之一,阿里巴巴在搜推广稀疏模型训练优化上有着深厚的经验与积累,近年来我们也看到大量相似的设计或是为解决相关问题的新方案不断涌现在国际顶级学术会议及期刊上。然而,随着模型复杂度以及数据规模的快速增长,即便有多种稠密计算及稀疏处理的优化,我们仍然观测到通用硬件上的训练任务不能表现出持续高水平的资源使用率。阿里巴巴探索了进一步提升资源利用效率的方法,以期望在满足业务质量严苛要求的同时,起到抛砖引玉的作用,吸引更多研究人员提出更为高效优雅的稀疏训练解决方案。


二、PICASSO技术转化


2.1 阿里巴巴内部XDL2训练引擎


XDL是阿里巴巴自研的PS训练模式的稀疏训练引擎,通过高并发的方式提升在混部集群中搜推广任务的训练效率。自2018年开源以来,XDL团队结合工业实践对XDL框架进行了大范围的革新,包括但不限于I/O、通信、访存、编译优化、软硬件计算加速等。XDL2是综合XDL多年的业务经验与PICASSO中所介绍技术的成果,支持在高性能集群中充分利用硬件优势提升训练效率,为阿里巴巴内部的多条搜推广业务线训练任务保驾护航。


2.2 阿里云HybridBackend高性能稀疏训练引擎


HybridBackend是阿里云推出的提升稀疏模型在异构硬件集群训练效率的训练框架,截至目前已经服务于阿里云数十家搜推广业务用户,平均带来了2-3倍的训练性能提升。HybridBackend将PICASSO中所介绍的技术作为Tensorflow的扩展,能够享受到Tensorflow社区的最新加速技术并在异构集群中最大化提升训练效率,且与基于Tensorflow实现的前沿学术或工业优化策略完全正交。HybridBackend目前已经开源在 GitHub - alibaba/HybridBackend: A high-performance framework for training wide-and-deep recommender systems on heterogeneous cluster。


三、工业级稀疏训练

稀疏训练主要由Embedding阶段, 特征交叉(feature interation)阶段和多层感知器(MLP)阶段组成。实际训练中,Embedding阶段在PS范式的训练下经常能够占据50%以上的训练时间。经过分析发现,Embedding阶段的算子主要以访存密集型(memory access intensive)和通信密集型的算子(communication intensive)为主,主要需要的硬件资源是内存和网络的带宽,而后两个阶段的算子则是计算密集型的算子占主导,需要的资源是算力。这意味着在PS的范式训练下,任何一个阶段都有可能存在某一种硬件资源成为瓶颈而其他硬件资源被浪费的现象。以GPU的算力资源为例,我们观察GPU使用率(SM Util)在不同的训练阶段之间呈现脉冲式变化(pulse),而不是持续高水位。考虑到最前沿的稀疏模型可能包含截然不同比例的访存密集型、通信密集型和算力密集型算子,其他硬件资源上也会出现相似的情况。


实际生产中的模型往往拥有上百路的Embedding特征查询,每一路的特征查询在Tensorflow内都会调用数十个算子实例(operations)。TensorFlow的引擎在调度上千级别的大量的算子执行需要额外的CPU线程开销;对于GPU设备来说, 过多的CUDA kernel提交到流处理器上(Tensorflow下每个GPU设备只有一个stream抽象)造成了GPU Stream Multiprocessor(SM)的冗余调度开销,同时每个零碎算子处理数据的并发度又不高,从而很难打满GPU的计算单元。类似的问题在CV,NLP等稠密模型的训练中也有可能发生,一般采用基于编译技术的优化手段进行算子合并。然而,在Wide and Deep模型这样的稀疏场景下,Embedding阶段的这些算子又往往具有dynamic shape的特点,在Tensorflow静态构图阶段无法获取准确的算子尺寸进行优化,导致类似Tensorflow-XLA等技术在此类场景下没有明显的收益。


工业级稀疏中,模型复杂度、特征数目、数据总量的日益增加,然而模型交付时效性要求却愈加严格。为了解决工业级稀疏训练的效率问题,许多大型企业根据其业务模型的主要瓶颈设计了定制化硬件。然而,对于需要执行大量异构训练任务及截然不同结构的稀疏任务的集群上,部署定制化硬件是很昂贵且效率不高的。对于个人用户或小型机构的用户也是如此。所以,在通用硬件设备上进行工业级稀疏训练优化是十分有意义的。


四、系统架构


上图展示了PICASSO同步训练模式的系统架构,每台Worker各自读取一部分数据并独立计算梯度。各台Worker上的梯度会在聚合后,更新于所有Worker。相较于PS(Parameter Server)训练模式,在PICASSO中取消了PS角色。Embedding表被切分放在不同的Worker上,切分方法可根据具体ID分布情况选择按ID切分、按维度切分、按表划分;查表操作通过网络传输分布式地进行。而所有稠密参数是以副本的形式放置在每台Worker上的,考虑到梯度是聚合后更新因而稠密参数的梯度在每台Worker上是完全相同的,所以在训练过程中稠密参数在不同Worker间能够保证一致性(诸如Batch Normalization的统计量可选择全局同步或局部维护,已有许多算法论文讨论,不在本文的范畴内)。不同Worker间通过集合通讯交换参数及梯度,能够最大程度利用好网络资源(如果配备了RDMA网络,则性能会更加出色)。


五、核心技术设计


5.1 数据和算子协同合并(Packing)


根据稀疏模型的结构特点,大部分细碎的算子来源于庞大的Embedding特征查询(lookup)数量。对于每一路查询,尽管输入的训练数据不同,但使用的算子组合是相同的。对于这种具有数据并行特点的模式,具有相同属性(维度、初始化器、标定特征组等)的Embedding表将被合并为一张新的Embedding表,而后续的访存查询算子也可以被合并为一个新的大算子。合并算子可以用多线程的方式有序查询Embedding,相对于乱序查询或分成若干小表查询能有显著的性能提升。查询完毕后,再依原有代码需要进行反去重和归位,真正做到了对用户透明。此外,根据特征查询阶段各个算子在分布式环境下的语义,我们将部分的计算核进行了融合,比如通过融合shuffle和stitch算子来消除冗余的数据拷贝。通过数据和算子两个维度的基于语义的融合,PICASSO缓解了不同查表操作之间的竞争问题,并大大减少了算子数量,对于现如今动辄几百路特征的模型是十分有帮助的;同时,相对于将所有Embedding查询过程涉及的算子全部融合在一起的方案,PICASSO所采用的仅将相邻的使用相同硬件资源的算子融合的方法,保留了下文叙述的通过算子间穿插遮掩来提升硬件利用率的优化机会。


5.2 训练算子间的穿插遮掩(Interleaving)


为了消除同时执行相同硬件资源需求的算子而造成的瓶颈, 我们设计了两种算子穿插遮掩执行(interleaving)的优化手段。


1) D(ata)-interleaving是通过对训练数据batch的切分利用pipeline的机制来调度穿插不同资源类型的算子,这样可以在训练的任何阶段缓解某一种资源的瓶颈。比如在大batch size的训练场景下,稀疏模型的MLP阶段也会产生很高的feature map显存占用,通过D-interleaving就可以有效降低单个GPU设备上的峰值显存占用,从而使得更大的batch size训练成为可能。


2)K(ernel)-interleaving是在Embedding Layer内部不同的特征查询路数之间做算子的穿插和遮掩,比如将通信密集的Shuffle操作和内存访问密集的Gather进行遮掩,可以有效提升这两种资源的使用率。


5.3 利用数据频次分布做缓存(Caching)


PICASSO利用数据中ID明显分布有偏(即存在大量长期或短期热点ID)的特点,将Embedding表拆分到CPU和GPU之上,以最大限度利用内存的大容量和GPU的高速内存带宽。其中,被识别的热点ID以及对应的Embedding将被放置在显存上,其余ID被放置在内存上,二者之间的ID定期进行刷新交换。两张哈希表都是需要正常更新梯度的,以避免梯度更新延迟带来的精度损失。考虑到同一Batch内的ID在访存查询之前已经经过去重,这种缓存机制可以大大减少跨不同Batch的冗余低速访存,同时又没有过多消耗用于计算的显存。后续这套混合存储的设计还可以扩展到包含Intel Persistent Memory, Non-volatile Memory等更多的硬件设备上。


5.4 其他集成技术


考虑到稀疏训练任务的特点,PICASSO已经集成了近年来的多项业务经验,重要设计包括:在I/O上开启了预取和列存数据格式的设计,最大限度降低I/O对整体训练的影响;改进的集合通讯协议,减少通信过程中的冗余传输及校验;算子零拷贝调整,避免不必要的访存;基于统计值的哈希表最优切分放置方案;计算图算子替换及编译优化;特定算子启用GPU加速库,如CUTLASS、CuDNN、CuBLAS和Cub等。除此之外,对于不断涌现的新技术,用户可以通过Tensorflow实现集成到PICASSO中。


六、主要指标表现


6.1 Benchmark效果


我们通过一组benchmark模型的实验结果横向和目前广泛流行的多种稀疏模型训练框架进行了性能的测试对比 参与对比的框架有Tensorflow Parameter Server (TensorFlow-PS)作为Baseline,PyTorch的模型并行版本(PyTorch),以及采用数据并行模式的Horovod。参与测试的模型有: 1) MLPerf采用的DLRM模型; 2) 工业界广泛使用的DeepFM模型,3) 阿里提出的DIN/DIEN模型,拥有更加复杂的特征交叉计算量。我们使用的数据集是公开的Criteo数据集。

可以看到对比与TF-PS的baseline, PICASSO在四个benchmark模型上都获得了1.9x至10x的性能提升,而对比Facebook的模型并行版本PyTorch, 我们也有至少2倍以上的性能提升,而且随着模型的计算量复杂度增加(DIN, DIEN),PICASSO的优势越明显。


6.2 多种模型性能效果


我们隔离了若干训练节点,并分别使用相同的Worker数目分别使用内部优化的XDL-PS模式和PICASSO模式实现若干前沿稀疏模型。我们调整了Batch size以记录极限性能,提升幅度如上图所示。可以看到,虽然不同的模型可能处于不同的硬件瓶颈下,但是PICASSO都能够显著地提升平均硬件利用率和整体性能。


6.3 内部训练任务性能提升


截至文章被会议录取时,PICASSO已经成功在阿里妈妈多条广告业务中有了落地,本文的实验中也介绍了在阿里妈妈CAN模型下PICASSO相对于上一代的XDL训练框架获得的性能优势,在下表中可以看到在训练时长等多个指标上获得了显著提升。


七、未来规划与展望


超大规模稀疏模型的训练效率问题已经吸引了越来越多企业及研究机构的关注。PICASSO研发团队目前正致力于结合真实各类大小业务场景探索通用的稀疏场景的加速优化方式,不仅仅是追求指标上的极限,更是追求提供更为易用、经济的解决方案。另一方面,当前PICASSO在一定程度上仍然需要用户手工调整若干参数以获取最佳性能,将PICASSO变得更加自动化也是当前PICASSO研发团队的重要使命。

我们真诚欢迎并邀请业界研究人员、工程师或感兴趣的朋友们与我们交流,共同推进稀疏训练性能乃至所有机器学习领域模型训练性能的发展,支撑深度学习技术更好更经济地服务于更多的领域。


参考文献


[1] Zhao, Weijie, Jingyuan Zhang, Deping Xie, Yulei Qian, Ronglai Jia, and Ping Li. "Aibox: Ctr prediction model training on a single node." In Proceedings of the 28th ACM International Conference on Information and Knowledge Management , pp. 319-328. 2019.


[2] Zhao, Weijie, Deping Xie, Ronglai Jia, Yulei Qian, Ruiquan Ding, Mingming Sun, and Ping Li. "Distributed hierarchical gpu parameter server for massive scale deep learning ads systems." Proceedings of Machine Learning and Systems 2 (2020): 412-428.


[3] Mudigere, Dheevatsa, Yuchen Hao, Jianyu Huang, Andrew Tulloch, Srinivas Sridharan, Xing Liu, Mustafa Ozdal et al. "High-performance, distributed training of large-scale deep learning recommendation models." arXiv e-prints (2021): arXiv-2104.


[4] Oldridge, Even, Julio Perez, Ben Frederickson, Nicolas Koumchatzky, Minseok Lee, Zehuan Wang, Lei Wu et al. "Merlin: A GPU Accelerated Recommendation Framework." In Proceedings of IRS . 2020.


[5] H. Guo, R. TANG, Y. Ye, Z. Li, and X. He, “Deepfm: A factorization-machine based neural network for ctr prediction,” in Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence, IJCAI-17, 2017, pp. 1725–1731.


[6] G. Zhou, X. Zhu, C. Song, Y. Fan, H. Zhu, X. Ma, Y. Yan, J. Jin, H. Li, and K. Gai, “Deep interest network for click-through rate prediction,” in Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2018, pp. 1059–1068.


[7] G. Zhou, N. Mou, Y. Fan, Q. Pi, W. Bian, C. Zhou, X. Zhu, and K. Gai, “Deep interest evolution network for click-through rate prediction,” in Proceedings of the AAAI conference on artificial intelligence, vol. 33,2019, pp. 5941–5948.

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
6月前
|
人工智能 vr&ar 图形学
开源单图生成3D模型TripoSR的局限性分析
【2月更文挑战第25天】开源单图生成3D模型TripoSR的局限性分析
314 6
开源单图生成3D模型TripoSR的局限性分析
|
3月前
|
机器学习/深度学习 数据采集 人工智能
揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化
【8月更文挑战第23天】苹果公司发布了一份47页的研究文档,深入解析了其在智能基础语言模型领域的探索与突破。文档揭示了苹果在此领域的雄厚实力,并分享了其独特的混合架构设计,该设计融合了Transformer与RNN的优势,显著提高了模型处理序列数据的效能与表现力。然而,这种架构也带来了诸如权重平衡与资源消耗等挑战。苹果利用海量、多样的高质量数据集训练模型,但确保数据质量及处理噪声仍需克服。此外,苹果采取了自监督与无监督学习相结合的高效训练策略,以增强模型的泛化与稳健性,但仍需解决预训练任务选择及超参数调优等问题。
148 66
|
4天前
|
人工智能 自然语言处理 数据挖掘
RAG 系统高效检索提升秘籍:如何精准选择 BGE 智源、GTE 阿里与 Jina 等的嵌入与精排模型的完美搭配
RAG 系统高效检索提升秘籍:如何精准选择 BGE 智源、GTE 阿里与 Jina 等的嵌入与精排模型的完美搭配
RAG 系统高效检索提升秘籍:如何精准选择 BGE 智源、GTE 阿里与 Jina 等的嵌入与精排模型的完美搭配
|
3月前
|
算法 语音技术
支付宝商业化广告算法问题之在ODL模型优化过程中,采取什么策略来提高模型的泛化能力呢
支付宝商业化广告算法问题之在ODL模型优化过程中,采取什么策略来提高模型的泛化能力呢
|
4月前
|
机器学习/深度学习 自然语言处理 并行计算
淘宝搜索中的深度语义模型:从理论到实践
淘宝搜索系统通过引入深度语义模型,极大地提升了搜索质量和用户体验。这些模型不仅能够准确理解用户的需求,还能够智能地匹配和推荐商品,为用户提供了一个更加便捷、个性化的购物环境。随着技术的不断发展和完善,淘宝搜索将会变得更加智能和高效。
|
5月前
|
语音技术 计算机视觉
CVPR 2024 Highlight :北航等发布时间特征维护:无需训练,极致压缩加速Diffusion
【6月更文挑战第28天】在CVPR 2024会议上,北航等研究团队提出了**时间特征维护**技术,针对Diffusion模型实现无需训练的高效压缩与加速。通过选择性保留关键时间特征,他们在保持生成质量的同时,实现了模型4bit极致压缩和超过2.38倍硬件加速,简化了复杂模型,提升了运行效率。这一创新方法有望改善Diffusion模型在实际应用中的资源需求,但其鲁棒性和泛化能力尚需更多验证。[论文链接](https://arxiv.org/pdf/2311.16503)
58 5
|
4月前
|
机器学习/深度学习 数据采集 算法
深度挖掘数据价值:Scikit-learn库全解析,模型选择与优化一网打尽!
【7月更文挑战第27天】在数据驱动时代, Scikit-learn作为Python中领先的机器学习库, 提供了从数据预处理至模型评估的全套工具, 拥有广泛的算法选择和一致的API设计, 便于快速原型开发与模型比较。本文探讨了线性模型(如`LinearRegression`)与非线性模型(如`RandomForestRegressor`)的选择及其应用场景, 并介绍了如何利用`GridSearchCV`和`RandomizedSearchCV`进行参数调优以及采用交叉验证确保模型泛化能力。
48 0
|
5月前
|
机器学习/深度学习 自然语言处理 算法
用神经架构搜索给LLM瘦身,模型变小,准确度有时反而更高
【6月更文挑战第20天】研究人员运用神经架构搜索(NAS)压缩LLM,如LLaMA2-7B,找到小而精准的子网,降低内存与计算成本,保持甚至提升性能。实验显示在多个任务上,模型大小减半,速度加快,精度不变或提升。NAS虽需大量计算资源,但结合量化技术,能有效优化大型语言模型。[论文链接](https://arxiv.org/pdf/2405.18377)**
56 3
|
人工智能 关系型数据库 数据库
|
机器学习/深度学习 自然语言处理 搜索推荐
推荐系统[八]算法实践总结V2:排序学习框架(特征提取标签获取方式)以及京东推荐算法精排技术实战
推荐系统[八]算法实践总结V2:排序学习框架(特征提取标签获取方式)以及京东推荐算法精排技术实战
推荐系统[八]算法实践总结V2:排序学习框架(特征提取标签获取方式)以及京东推荐算法精排技术实战