美团视觉GPU推理服务部署架构优化实战

简介: 美团视觉GPU推理服务部署架构优化实战

🌷🍁 博主 libin9iOak带您 Go to New World.✨🍁

🦄 个人主页——libin9iOak的博客🎐
🐳 《面试题大全》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺
🌊 《IDEA开发秘籍》学会IDEA常用操作,工作效率翻倍~💐
🪁🍁 希望本文能够给您带来一定的帮助🌸文章粗浅,敬请批评指正!🍁🐥


摘要

1.视觉模型服务部署面临的问题与挑战

2.GPU服务性能优化实践案例

3.通用高效的推理服务部署架构

1.视觉模型服务部署面临的问题与挑战

背景

美团视觉致力于将视觉A|技术应用于本地生活服务的各个场景。但随着视觉在线推理服务使用

的GPU资源不断增加,GPU利用率低的问题也日益凸显,浪费大量计算资源。

造成服务GPU利用率低下的重要原因之一

视觉模型特点

口深度学习模型,网络层数多(适合用GPU运算 口模型输入固定,需要预处理

优化工具与部署框架

口TensorRT、TF-TRT、TVM等优化工具 口TensorFlow、Torch、Triton等部署框架

模型优化与部署面临的问题与挑战

①模型优化不彻底:部分算子无法优化加速

②多模型串联部署难:串联逻辑灵活且复杂

2. GPU服务优化实践分类模型优化

分类模型是一种基础的视觉模型,常应用在图像 审核场景下,过滤风险内容实现机器自动审核 模型结构包含两个部分,“预处理”+“主于网络” TF-TRT可以将主干网络整体优化为1个Engine, 但 是预处理部分却不支持优化 .

结论:

异构计算情况下,模型不同部分可 能运行在不同设备上。将模型CPU/GPU运 算部分结耦分离,在服务层面实现运算流 GPU性能瓶颈。 水线处理,避免CPU计算速度缓慢导致的 .

2.2 GPU服务优化实践-检测+分类模型优化

3.通用高效的推理服务部署架构

总结与展望:

推理服务存在一个共性问题:模型结构中CPU算子和GPU算子相互耦 合,严重影响运行效率。为此,我们提出了一种通用高效的部署架构,通过模型结 构拆分和微服务化,解决这种常见的性能瓶颈问题。目前,该解决方案已在美团视 觉核心服务上广泛应用,优化后服务GPU利用率接近100%,服务性能成倍提升。 当然,这种优化方案也存在一些不足,模型如何拆分依赖人工经验或实验测试,没 有实现优化流程的自动化与标准化 .

🤔🤔🤔 关于模型部署优化的一些思考

① 模型部署性能优化需要考虑多个层面:从模型算子融合、剪枝、量化,到TensorRT、TVM工具优化,再到部署架构优化。只考虑一个层面优化无法取得好的效果,针对瓶颈进行优化才能事半功倍。

②异构计算体系下,需要考虑模型算子运行设备与交互通信开销。

③大模型分布式推理对部署系统提出更高要求,如何高效推理仍然具有挑战。

原创声明

=======

作者wx: [ libin9iOak ]


本文为原创文章,版权归作者所有。未经许可,禁止转载、复制或引用。

作者保证信息真实可靠,但不对准确性和完整性承担责任。

未经许可,禁止商业用途。

如有疑问或建议,请联系作者。

感谢您的支持与尊重。

点击下方名片,加入IT技术核心学习团队。一起探索科技的未来,共同成长。


相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
目录
相关文章
|
7月前
|
人工智能 自然语言处理 开发工具
统一多模态 Transformer 架构在跨模态表示学习中的应用与优化
本文介绍统一多模态 Transformer(UMT)在跨模态表示学习中的应用与优化,涵盖模型架构、实现细节与实验效果,探讨其在图文检索、图像生成等任务中的卓越性能。
统一多模态 Transformer 架构在跨模态表示学习中的应用与优化
|
9月前
|
存储 机器学习/深度学习 数据库
阿里云服务器X86/ARM/GPU/裸金属/超算五大架构技术特点、场景适配参考
在云计算技术飞速发展的当下,云计算已经渗透到各个行业,成为企业数字化转型的关键驱动力。选择合适的云服务器架构对于提升业务效率、降低成本至关重要。阿里云提供了多样化的云服务器架构选择,包括X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器以及高性能计算等。本文将深入解析这些架构的特点、优势及适用场景,以供大家了解和选择参考。
1345 61
|
7月前
|
算法 物联网 定位技术
蓝牙室内定位技术解决方案:核心技术架构与优化实践
本文探讨了蓝牙iBeacon与Lora结合的室内定位技术,分析其在复杂室内环境中的优势与挑战。通过三层架构实现高精度定位,并提出硬件、算法与部署优化方向,助力智慧仓储、医疗等场景智能化升级。
419 0
蓝牙室内定位技术解决方案:核心技术架构与优化实践
|
4月前
|
机器学习/深度学习 数据可视化 网络架构
PINN训练新思路:把初始条件和边界约束嵌入网络架构,解决多目标优化难题
PINNs训练难因多目标优化易失衡。通过设计硬约束网络架构,将初始与边界条件内嵌于模型输出,可自动满足约束,仅需优化方程残差,简化训练过程,提升稳定性与精度,适用于气候、生物医学等高要求仿真场景。
578 4
PINN训练新思路:把初始条件和边界约束嵌入网络架构,解决多目标优化难题
|
4月前
|
运维 Prometheus 监控
别再“亡羊补牢”了!——聊聊如何优化企业的IT运维监控架构
别再“亡羊补牢”了!——聊聊如何优化企业的IT运维监控架构
215 8
|
4月前
|
缓存 运维 监控
Redis 7.0 高性能缓存架构设计与优化
🌟蒋星熠Jaxonic,技术宇宙中的星际旅人。深耕Redis 7.0高性能缓存架构,探索函数化编程、多层缓存、集群优化与分片消息系统,用代码在二进制星河中谱写极客诗篇。
|
6月前
|
机器学习/深度学习 存储 人工智能
RAG系统文本检索优化:Cross-Encoder与Bi-Encoder架构技术对比与选择指南
本文将深入分析这两种编码架构的技术原理、数学基础、实现流程以及各自的优势与局限性,并探讨混合架构的应用策略。
495 10
RAG系统文本检索优化:Cross-Encoder与Bi-Encoder架构技术对比与选择指南
|
6月前
|
机器学习/深度学习 人工智能 算法
|
6月前
|
数据采集 机器学习/深度学习 运维
从数据感知到决策优化:MyEMS 开源能源管理系统的技术架构与实践效能解析
MyEMS 是一款开源能源管理系统,采用分层解耦与模块化设计,支持多能源协同监测与智能优化调度。系统具备数据采集、分析、预警、碳核算等功能,助力企业实现节能降耗、安全管控与低碳转型,已在百余家全球企业落地应用,具备自主可控、成本低、安全性强等优势,面向虚拟电厂、数字孪生等未来场景持续演进。
342 0

热门文章

最新文章