带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(6)-阿里云开发者社区

带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(6)

2023-06-12 115

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(6)

带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(5) https://developer.aliyun.com/article/1246917?groupCode=taobaotech

优化总结

模型加速核心离不开裁枝、增加并行度、提升计算效率和缓存的使用。在优化ODL模型的过程中，我们首先深入了解RTP系统在线serving的原理，进而通过对比ODL模型与传统BDL模型在线serving时的差异，找到更适合ODL模型的优化方式路径。得益于RTP系统的灵活性，我们将缓存的思想应用于组图优化的过程中，使得ConstantFolding优化思想可以覆盖到ODL模型的在线serving过程。之后我们又进一步深入分析了GPU的性能瓶颈，利用TensorFlow的Timeline功能，我们通过模型压测定位到了GPU执行过程的瓶颈点所在，并在离线训练阶段对模型结构进行了简化，使得Cuda Graph指令集硬件优化技术充分覆盖到了所有GPU计算流程，达到了提升GPU计算效率的效果，并最终通过模型图可视化的方式验证了我们的优化效果符合预期。

在经过我们对ODL模型的特点进行分析及针对性的优化之后，模型的压测单机吞吐量提升了40%左右，更彻底地释放了GPU的算力，同时也显著降低了模型响应时间RT。在晚高峰期间，ODL模型在保障RT和P99没有明显上涨的前提下，顺利度过了流量尖峰，GPU使用率从优化前最高只能达到30%左右，到优化后最高可以达到43%，更加充分挖掘了现有资源的算力，让我们使用更少的机器（节省资源30%），完美地支撑了算法同学迭代ODL模型，拿到了最终完整的算法效果与收益，保障业务持续快速发展。

团队介绍

我们是来自淘宝逛逛的搜推工程团队，致力于算法能力的垂直落地及智能业务的平台建设。逛逛作为淘宝内容化的核心阵地，是算法运用程度极高的智能业务。作为搜推工程团队，我们为算法团队提供高可用的在线服务能力，快速的算法模型迭代速度和极致的算力效率。帮助业务在数据和创新驱动下，为淘宝用户提供优质的内容分发服务，持续提升用户体验。

带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(6)

大淘宝技术

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(6)

大淘宝技术

热门文章

最新文章

相关课程

相关电子书

相关实验场景