带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(6)

简介: 带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(6)

带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(5) https://developer.aliyun.com/article/1246917?groupCode=taobaotech



优化总结


模型加速核心离不开裁枝、增加并行度、提升计算效率和缓存的使用。在优化ODL模型的过程中,我们首先深入了解RTP系统在线serving的原理,进而通过对比ODL模型与传统BDL模型在线serving时的差异,找到更适合ODL模型的优化方式路径。得益于RTP系统的灵活性,我们将缓存的思想应用于组图优化的过程中,使得ConstantFolding优化思想可以覆盖到ODL模型的在线serving过程。之后我们又进一步深入分析了GPU的性能瓶颈,利用TensorFlow的Timeline功能,我们通过模型压测定位到了GPU执行过程的瓶颈点所在,并在离线训练阶段对模型结构进行了简化,使得Cuda Graph指令集硬件优化技术充分覆盖到了所有GPU计算流程,达到了提升GPU计算效率的效果,并最终通过模型图可视化的方式验证了我们的优化效果符合预期。


在经过我们对ODL模型的特点进行分析及针对性的优化之后,模型的压测单机吞吐量提升了40%左右,更彻底地释放了GPU的算力,同时也显著降低了模型响应时间RT。在晚高峰期间,ODL模型在保障RT和P99没有明显上涨的前提下,顺利度过了流量尖峰,GPU使用率从优化前最高只能达到30%左右,到优化后最高可以达到43%,更加充分挖掘了现有资源的算力,让我们使用更少的机器(节省资源30%),完美地支撑了算法同学迭代ODL模型,拿到了最终完整的算法效果与收益,保障业务持续快速发展。


image.png


团队介绍


我们是来自淘宝逛逛的搜推工程团队,致力于算法能力的垂直落地及智能业务的平台建设。逛逛作为淘宝内容化的核心阵地,是算法运用程度极高的智能业务。作为搜推工程团队,我们为算法团队提供高可用的在线服务能力,快速的算法模型迭代速度和极致的算力效率。帮助业务在数据和创新驱动下,为淘宝用户提供优质的内容分发服务,持续提升用户体验。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
并行计算 算法 异构计算
带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(5)
带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(5)
111 0
|
缓存 TensorFlow 算法框架/工具
带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(2)
带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(2)
103 0
|
机器学习/深度学习 算法 TensorFlow
带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(1)
带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(1)
104 0
|
缓存 异构计算
带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(3)
带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(3)
|
并行计算 数据可视化 TensorFlow
带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(4)
带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(4)
|
搜索推荐
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(9)
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(9)
115 0
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(6)
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(6)
110 0
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(8)
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(8)
122 0
|
数据挖掘
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(4)
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(4)
122 0
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(7)
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(7)
156 0