cGPU技术基于内核虚拟化实现多容器共享单GPU卡并隔离资源-开发者社区-阿里云

【Hello AI】GPU容器共享技术cGPU

2024-01-19 994

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： GPU容器共享技术cGPU是阿里云基于内核虚拟GPU隔离的容器共享技术。即多个容器共享一张GPU卡，从而实现业务的安全隔离，提高GPU硬件资源的利用率并降低使用成本。

GPU容器共享技术cGPU是阿里云基于内核虚拟GPU隔离的容器共享技术。即多个容器共享一张GPU卡，从而实现业务的安全隔离，提高GPU硬件资源的利用率并降低使用成本。

不仅适配标准的Docker和Containerd工作方式，而且还无缝兼容Kubernetes工作方式。

无需重编译AI应用，运行时无需替换CUDA库。

物理GPU的资源任意划分。例如，GPU显存动态划分，支持M级划分、GPU利用率动态划分，算力支持最小2%粒度的划分。

适用于GPU裸金属实例，虚拟化实例，vGPU实例等各种GPU实例。

支持在离线混部业务（即在线业务和离线业务）、支持CUDA AI和渲染应用场景。

具备高优先级的抢占功能和较高的可运维能力，支持热升级、支持多卡划分功能。

GPU容器共享技术cGPU的架构图如下所示：

为了提高GPU硬件资源的利用率，需要在单张显卡上运行多个容器，并在多个容器间隔离GPU应用。

cGPU通过自研的内核驱动为容器提供虚拟的GPU设备，在保证性能的前提下隔离显存和算力，为充分利用GPU硬件资源进行训练和推理提供有效保障。您可以通过命令方便地配置容器内的虚拟GPU设备。

好啦！小弹的分享到此为止。我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽，请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

【扫码填写上方调研问卷】

欢迎每位来到弹性计算的开发者们来反馈问题哦~

【Hello AI】GPU容器共享技术cGPU