嵌入式 GPU 平台部署

简介: 近些年来,随着计算能力的大幅提升,深度学习网络得以快速的发展,已经被广泛应用于语音识别、计算机视觉、自然语言处理等研究。为了提取更加有效的特征,深度学习网络的层数增长较快,并且具有计算量大、参数多的特点,需要高性能的GPU等设备为其提供算力的支持。另一方面,随着无人机、机器人、智能手机等嵌入式或移动设备的快速发展,在这些设备上部署深度学习网络的需求也变得更加强烈。然而这些实时应用平台上的资源(例如存储、计算以及电池功率等)都非常有限,因此在这些平台上加速与优化深度学习网络变成了学术界和工业界共同关注的研究课题。

1. GPU平台部署

      对于嵌入式 GPU 端,由于其支持 CUDA 与 TensorRT 加速计算库,可以通过 CUDA与 TensorRT 对模型进行大幅度的优化。CUDA 的加速主要使用到了上文提到的一些内存对齐排列、并行计算、矩阵乘法优化方法等策略对网络推理进行加速。而 TensorRT的加速原理是将现有的模型算法以及输入输出编译为 CUDA GPU 可以直接运行的机器码。这样在实际的网络推理过程中,GPU 便不需要像常用的深度学习框架那样加载模型,初始化后等待输出。大大的提升了在 GPU 端的运行速度并且优化了 GPU 的资源占用。

@(6@J7)Q$PHQILNWU6F]W30.png

     嵌入式 GPU 端部署流程图如上图所示。完整的嵌入式 GPU 平台应用部署的具体流程如下: (1)经过Pytorch训练过程可得到 Pytorch 训练输出的 Pth 格式模型文件,对该模型文件进行格式转换变为 ONNX 格式,之后可方便再转换为其他框架支持的模型格式。 (2)利用 ONNX 自带的优化工具可将模型转换后的一些冗余结构进行删除,再使用 TensorRT 的转换工具将训练的语义分割模型从 ONNX 格式序列化后编译为 TensorRT 推理时用到的引擎文件。

(3)模型转换完毕后,模型还需要数据的前处理与后处理才可正常完成语义分割任务,因此需将数据前处理算法与后处理算法结合模型文件的读取与推理部分代码打包后编译成动态库实现部署。其中前处理算法主要包括输入图像的尺寸调节、利用数据集均值与方差对输入图像数据进行标准化与归一化。同时 TensorRT 推理时要求输入数据必须是内存连续的,因此数据处理时还需要保证三个通道数据内存连续。模型推理后的数据后处理算法则主要是利用通道维度的最大值索引获得像素分类结果并转换为彩色图完成可视化。

2. 实验结果分析

    在实际室内场景部署后分割效果如下图 所示。整体来看分割效果是比较不错的,实际场景中的类别有墙面、地面、白板、投影幕布、桌子、椅子、电脑等,各类物品分割效果均是较为准确的。从第一排至第四排的分割结果以及融合效果可以看出,所提出的 LCSNet 网络在实际室内场景应用时整体分割效果边界清晰,类别准确无混淆。      

     同时通过分析分割可视化结果发现在数据集中没有对应类别样本的物体分割能力存在一些不足。如第一排中图像右侧的玻璃门,由于其半透明且训练数据中没有玻璃门因此被分割成了墙面类别。而第三排桌面下方的杂物、第四排图像右侧的机械臂与机器人、第五排图像中桌面的杂物等在训练数据集中均没有较为精细的类别标签,因此虽然可以将该物体图像区域进行正确分割,但类别都为其他类。在后续规划中,为得到类别更为精细的室内场景语义分割会针对实际场景扩增标注类别对场景类别进一步细化,对数据集进行增补。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
人工智能 机器人 Serverless
魔搭大模型一键部署到阿里云函数计算,GPU 闲置计费功能可大幅降低开销
魔搭大模型一键部署到阿里云函数计算,GPU 闲置计费功能可大幅降低开销
1135 2
|
7月前
|
Kubernetes 安全 异构计算
K8S 部署 Deepseek 要 3 天?别逗了!Ollama+GPU Operator 1 小时搞定
最近一年我都在依赖大模型辅助工作,比如 DeepSeek、豆包、Qwen等等。线上大模型确实方便,敲几个字就能生成文案、写代码、做表格,极大提高了效率。但对于企业来说:公司内部数据敏感、使用外部大模型会有数据泄露的风险。
K8S 部署 Deepseek 要 3 天?别逗了!Ollama+GPU Operator 1 小时搞定
|
9月前
|
存储 Kubernetes 对象存储
部署DeepSeek但GPU不足,ACK One注册集群助力解决IDC GPU资源不足
借助阿里云ACK One注册集群,充分利用阿里云强大ACS GPU算力,实现DeepSeek推理模型高效部署。
|
6月前
|
人工智能 并行计算 监控
在AMD GPU上部署AI大模型:从ROCm环境搭建到Ollama本地推理实战指南
本文详细介绍了在AMD硬件上构建大型语言模型(LLM)推理环境的全流程。以RX 7900XT为例,通过配置ROCm平台、部署Ollama及Open WebUI,实现高效本地化AI推理。尽管面临技术挑战,但凭借高性价比(如700欧元的RX 7900XT性能接近2200欧元的RTX 5090),AMD方案成为经济实用的选择。测试显示,不同规模模型的推理速度从9到74 tokens/秒不等,满足交互需求。随着ROCm不断完善,AMD生态将推动AI硬件多元化发展,为个人与小型组织提供低成本、低依赖的AI实践路径。
2419 1
在AMD GPU上部署AI大模型:从ROCm环境搭建到Ollama本地推理实战指南
|
8月前
|
存储 人工智能 固态存储
轻量级AI革命:无需GPU就能运算的DeepSeek-R1-1.5B模型及其低配部署指南
随着AI技术发展,大语言模型成为产业智能化的关键工具。DeepSeek系列模型以其创新架构和高效性能备受关注,其中R1-1.5B作为参数量最小的版本,适合资源受限场景。其部署仅需4核CPU、8GB RAM及15GB SSD,适用于移动对话、智能助手等任务。相比参数更大的R1-35B与R1-67B+,R1-1.5B成本低、效率高,支持数学计算、代码生成等多领域应用,是个人开发者和初创企业的理想选择。未来,DeepSeek有望推出更多小型化模型,拓展低资源设备的AI生态。
1642 8
|
人工智能 自动驾驶 vr&ar
探索GPU算力平台的创新应用:从游戏到自动驾驶的跨越
【8月更文第5天】本文探讨了GPU(图形处理器)在现代计算中的角色转变,从最初的图形渲染到如今成为人工智能和高性能计算的重要组成部分。我们将通过几个具体的案例研究,包括游戏渲染、虚拟现实(VR)以及自动驾驶系统,来展示GPU是如何推动这些领域的进步和发展。
310 1
|
机器学习/深度学习 人工智能 并行计算
GPU算力平台:数字化转型的核心驱动力
【8月更文第5天】随着人工智能(AI)、大数据分析以及高性能计算需求的不断增长,图形处理器(GPU)因其卓越的并行计算能力而成为加速这些领域的关键技术。GPU算力平台不仅能够显著提升计算效率,还能帮助企业更好地处理大规模数据集,支持复杂的机器学习模型训练,并促进实时数据分析。本文将探讨GPU算力平台在数字化转型中的核心作用,并通过示例代码展示其在实际应用中的优势。
731 1
|
9月前
|
边缘计算 调度 对象存储
部署DeepSeek但IDC GPU不足,阿里云ACK Edge虚拟节点来帮忙
介绍如何使用ACK Edge与虚拟节点满足DeepSeek部署的弹性需求。
|
9月前
|
存储 Kubernetes 对象存储
部署DeepSeek但GPU不足,ACK One注册集群助力解决IDC GPU资源不足
部署DeepSeek但GPU不足,ACK One注册集群助力解决IDC GPU资源不足
256 3
|
9月前
|
机器学习/深度学习 弹性计算 网络安全
部署DeepSeek,你的GPU够用吗?
本文介绍如何将 DeepSeek-R1 开源模型部署到 GPU 云服务器,在 GPU 云服务器上安装与配置 Ollama 和 Open WebUI。

热门文章

最新文章

下一篇
oss云网关配置