美团视觉GPU推理服务部署架构优化实战-阿里云开发者社区

美团视觉GPU推理服务部署架构优化实战

2023-10-14 186

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 美团视觉GPU推理服务部署架构优化实战

🌷🍁 博主 libin9iOak带您 Go to New World.✨🍁

🦄 个人主页——libin9iOak的博客🎐
🐳 《面试题大全》文章图文并茂🦕生动形象🦖简单易学！欢迎大家来踩踩~🌺
🌊 《IDEA开发秘籍》学会IDEA常用操作，工作效率翻倍~💐
🪁🍁 希望本文能够给您带来一定的帮助🌸文章粗浅，敬请批评指正！🍁🐥

摘要

1.视觉模型服务部署面临的问题与挑战

2.GPU服务性能优化实践案例

3.通用高效的推理服务部署架构

1.视觉模型服务部署面临的问题与挑战

背景

美团视觉致力于将视觉A|技术应用于本地生活服务的各个场景。但随着视觉在线推理服务使用

的GPU资源不断增加，GPU利用率低的问题也日益凸显，浪费大量计算资源。

造成服务GPU利用率低下的重要原因之一

视觉模型特点

口深度学习模型，网络层数多（适合用GPU运算口模型输入固定，需要预处理

优化工具与部署框架

口TensorRT、TF-TRT、TVM等优化工具口TensorFlow、Torch、Triton等部署框架

模型优化与部署面临的问题与挑战

①模型优化不彻底：部分算子无法优化加速

②多模型串联部署难：串联逻辑灵活且复杂

2. GPU服务优化实践分类模型优化

分类模型是一种基础的视觉模型，常应用在图像审核场景下，过滤风险内容实现机器自动审核模型结构包含两个部分，“预处理”+“主于网络” TF-TRT可以将主干网络整体优化为1个Engine，但是预处理部分却不支持优化 .

结论：

异构计算情况下，模型不同部分可能运行在不同设备上。将模型CPU/GPU运算部分结耦分离，在服务层面实现运算流 GPU性能瓶颈。水线处理，避免CPU计算速度缓慢导致的 .

2.2 GPU服务优化实践-检测+分类模型优化

3.通用高效的推理服务部署架构

总结与展望：

推理服务存在一个共性问题：模型结构中CPU算子和GPU算子相互耦合，严重影响运行效率。为此，我们提出了一种通用高效的部署架构，通过模型结构拆分和微服务化，解决这种常见的性能瓶颈问题。目前，该解决方案已在美团视觉核心服务上广泛应用，优化后服务GPU利用率接近100%，服务性能成倍提升。当然，这种优化方案也存在一些不足，模型如何拆分依赖人工经验或实验测试，没有实现优化流程的自动化与标准化 .

🤔🤔🤔 关于模型部署优化的一些思考

① 模型部署性能优化需要考虑多个层面：从模型算子融合、剪枝、量化，到TensorRT、TVM工具优化，再到部署架构优化。只考虑一个层面优化无法取得好的效果，针对瓶颈进行优化才能事半功倍。

②异构计算体系下，需要考虑模型算子运行设备与交互通信开销。

③大模型分布式推理对部署系统提出更高要求，如何高效推理仍然具有挑战。

原创声明

=======

作者wx： [ libin9iOak ]

本文为原创文章，版权归作者所有。未经许可，禁止转载、复制或引用。

作者保证信息真实可靠，但不对准确性和完整性承担责任。

未经许可，禁止商业用途。

如有疑问或建议，请联系作者。

感谢您的支持与尊重。

点击下方名片，加入IT技术核心学习团队。一起探索科技的未来，共同成长。

美团视觉GPU推理服务部署架构优化实战

摘要