用尽每一寸GPU,阿里云cGPU容器技术帮助人工智能提效降本

本文涉及的产品
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 阿里云推出的cGPU容器技术,可以实现容器的安全隔离,业务之间不会互相干扰,各容器之间的故障不会相互传递,更安全、更稳定;同时对客户环境无侵入,如客户无需修改CUDA运行库等,就能让客户灵活地利用容器调度底层GPU资源。

人工智能已经深入影响各行各业,作为人工智能实现的主流实现路径,深度学习对算力的需求庞大且波动,上云已成主流趋势。

GPU是人工智能算力的重要来源。互联网及传统企业客户,只要有人工智能相关的业务,都需要租用GPU云服务器来做深度学习模型的训练与推理。

随着显卡技术的不断发展和半导体制程工艺的进步,单张GPU卡算力水涨船高,成本愈发高昂。然而,有许多的深度学习任务,并不需要占用一整张GPU卡。资源调度不够灵活,造成了GPU资源利用率不高。

这时候,用容器调度底层GPU资源就成了一种很好的解决方案。多租户(VM)使用同一张GPU卡,可以依靠vGPU技术实现;而单租户多线程的场景,则可以通过GPU容器共享技术实现。通过在GPU卡之上高密度的容器部署,可以将GPU资源做更细颗粒度的切分,提高资源利用率。

阿里云异构计算近日推出的cGPU容器共享技术,让用户通过容器来调度底层GPU资源,以更细颗粒度调度使用GPU,提高GPU资源利用率,达到降本增效的目的。

目前业界普遍使用GPU容器技术。在容器调度GPU的时候,不同线程中的容器应用可能出现显存资源争抢和互相影响的问题,未能做到容器的完全隔离。比如,对显存资源需求强烈的应用,可能会占用了过多资源,使得另一线程的容器应用显存资源不足。

也就是说只解决了算力争抢的问题,却未能解决故障隔离的问题。比如某企业在跑两个容器中分别运行着GPU的推理应用,一个已经稳定了,一个还在开发阶段。如果其中一个容器中的应用出现故障,由于没有实现很好的隔离技术,往往导致另一容器中的应用也会出现故障。

目前,行业内还有一种改良方案,通过把CUDA运行库替换或者进行调整,这种方案的弊端是用户没法将自身搭建的环境无缝放到云厂商的环境中,而是需要适配和更改CUDA运行库。

阿里云推出的cGPU容器技术,可以实现容器的安全隔离,业务之间不会互相干扰,各容器之间的故障不会相互传递,更安全、更稳定;同时对客户环境无侵入,如客户无需修改CUDA运行库等,就能让客户灵活地利用容器调度底层GPU资源。

阿里云cGPU容器技术的推出,将进一步推动更多的企业使用容器调度底层GPU容器资源,能够毫无后顾之忧地提升GPU资源利用率,实现降本增效。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
19天前
|
运维 Kubernetes 监控
提升运维效率:容器化技术在现代IT基础设施中的应用
本文将探讨容器化技术如何优化企业的IT基础设施,提高部署效率和资源利用率。我们将深入分析容器技术的优势、实现步骤以及在实际运维中的应用场景。通过实例展示,帮助读者更好地理解并应用这一前沿技术,助力企业实现高效运维。
|
1月前
|
人工智能 运维 安全
阿里云通过ISO42001人工智能管理认证,引领AI治理推动协同共治
9月19日,在杭州云栖大会「AI治理与安全论坛」上,阿里云宣布通过人工智能技术的全生命周期管理ISO42001体系认证。该项认证由国际标准化组织(ISO)和国际电工委员会(IEC)制定,是第一部可认证的人工智能国际管理体系标准。
|
1月前
|
Linux iOS开发 Docker
Docker:容器化技术的领航者 —— 从基础到实践的全面解析
在云计算与微服务架构日益盛行的今天,Docker作为容器化技术的佼佼者,正引领着一场软件开发与部署的革命。它不仅极大地提升了应用部署的灵活性与效率,还为持续集成/持续部署(CI/CD)提供了强有力的支撑。
214 69
|
3天前
|
存储 应用服务中间件 云计算
深入解析:云计算中的容器化技术——Docker实战指南
【10月更文挑战第14天】深入解析:云计算中的容器化技术——Docker实战指南
14 1
|
5天前
|
弹性计算 Kubernetes 网络协议
阿里云弹性网络接口技术的容器网络基础教程
阿里云弹性网络接口技术的容器网络基础教程
阿里云弹性网络接口技术的容器网络基础教程
|
8天前
|
运维 JavaScript 虚拟化
探索容器化技术:Docker的实践与应用
【10月更文挑战第9天】探索容器化技术:Docker的实践与应用
33 3
|
1月前
|
运维 Cloud Native Docker
云原生技术入门:Docker容器化实战
【9月更文挑战第20天】本文将引导你走进云原生技术的世界,通过Docker容器化技术的实战演练,深入理解其背后的原理和应用。我们将一起探索如何在云平台上利用Docker简化部署、扩展和管理应用程序的过程,并揭示这一技术如何改变现代软件的开发和运维模式。
|
2天前
|
存储 Kubernetes 监控
深入探索Docker容器化技术的奥秘
【10月更文挑战第15天】深入探索Docker容器化技术的奥秘
10 0
|
3天前
|
运维 Kubernetes 监控
掌握Docker容器化技术:构建、部署与管理的高效实践
【10月更文挑战第14天】掌握Docker容器化技术:构建、部署与管理的高效实践
12 0
|
1月前
|
Cloud Native 持续交付 Docker
云原生技术入门与实践:Docker容器化部署示例
【9月更文挑战第25天】在数字化转型的浪潮下,云原生技术成为推动企业创新的重要力量。本文旨在通过浅显易懂的语言,为初学者揭示云原生技术的核心概念及其应用价值。我们将以Docker容器为例,逐步引导读者了解如何将应用程序容器化,并在云端高效运行。这不仅是对技术趋势的跟随,更是对资源利用和开发效率提升的探索。
55 4