用尽每一寸GPU,阿里云cGPU容器技术帮助人工智能提效降本

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 阿里云推出的cGPU容器技术,可以实现容器的安全隔离,业务之间不会互相干扰,各容器之间的故障不会相互传递,更安全、更稳定;同时对客户环境无侵入,如客户无需修改CUDA运行库等,就能让客户灵活地利用容器调度底层GPU资源。

人工智能已经深入影响各行各业,作为人工智能实现的主流实现路径,深度学习对算力的需求庞大且波动,上云已成主流趋势。

GPU是人工智能算力的重要来源。互联网及传统企业客户,只要有人工智能相关的业务,都需要租用GPU云服务器来做深度学习模型的训练与推理。

随着显卡技术的不断发展和半导体制程工艺的进步,单张GPU卡算力水涨船高,成本愈发高昂。然而,有许多的深度学习任务,并不需要占用一整张GPU卡。资源调度不够灵活,造成了GPU资源利用率不高。

这时候,用容器调度底层GPU资源就成了一种很好的解决方案。多租户(VM)使用同一张GPU卡,可以依靠vGPU技术实现;而单租户多线程的场景,则可以通过GPU容器共享技术实现。通过在GPU卡之上高密度的容器部署,可以将GPU资源做更细颗粒度的切分,提高资源利用率。

阿里云异构计算近日推出的cGPU容器共享技术,让用户通过容器来调度底层GPU资源,以更细颗粒度调度使用GPU,提高GPU资源利用率,达到降本增效的目的。

目前业界普遍使用GPU容器技术。在容器调度GPU的时候,不同线程中的容器应用可能出现显存资源争抢和互相影响的问题,未能做到容器的完全隔离。比如,对显存资源需求强烈的应用,可能会占用了过多资源,使得另一线程的容器应用显存资源不足。

也就是说只解决了算力争抢的问题,却未能解决故障隔离的问题。比如某企业在跑两个容器中分别运行着GPU的推理应用,一个已经稳定了,一个还在开发阶段。如果其中一个容器中的应用出现故障,由于没有实现很好的隔离技术,往往导致另一容器中的应用也会出现故障。

目前,行业内还有一种改良方案,通过把CUDA运行库替换或者进行调整,这种方案的弊端是用户没法将自身搭建的环境无缝放到云厂商的环境中,而是需要适配和更改CUDA运行库。

阿里云推出的cGPU容器技术,可以实现容器的安全隔离,业务之间不会互相干扰,各容器之间的故障不会相互传递,更安全、更稳定;同时对客户环境无侵入,如客户无需修改CUDA运行库等,就能让客户灵活地利用容器调度底层GPU资源。

阿里云cGPU容器技术的推出,将进一步推动更多的企业使用容器调度底层GPU容器资源,能够毫无后顾之忧地提升GPU资源利用率,实现降本增效。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
4月前
|
存储 机器学习/深度学习 数据库
阿里云服务器X86/ARM/GPU/裸金属/超算五大架构技术特点、场景适配参考
在云计算技术飞速发展的当下,云计算已经渗透到各个行业,成为企业数字化转型的关键驱动力。选择合适的云服务器架构对于提升业务效率、降低成本至关重要。阿里云提供了多样化的云服务器架构选择,包括X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器以及高性能计算等。本文将深入解析这些架构的特点、优势及适用场景,以供大家了解和选择参考。
783 61
|
3月前
|
存储 容器
46.[HarmonyOS NEXT RelativeContainer案例三] 打造自适应容器:内容驱动的智能尺寸调整技术
在HarmonyOS NEXT的UI开发中,创建能够根据内容自动调整尺寸的容器是实现灵活布局的关键。RelativeContainer结合自适应尺寸设置,可以实现内容驱动的智能尺寸调整,使UI更加灵活且易于维护。本教程将详细讲解如何创建自适应尺寸的RelativeContainer,帮助你掌握这一实用技术。
104 5
|
1月前
|
Kubernetes Cloud Native 持续交付
Docker:轻量级容器化技术解析
Docker:轻量级容器化技术解析
|
1月前
|
运维 测试技术 Docker
Docker:轻量级容器化技术革命
Docker:轻量级容器化技术革命
|
6月前
|
存储 测试技术 对象存储
容器计算服务ACS单张GPU即可快速搭建QwQ-32B推理模型
阿里云最新发布的QwQ-32B模型拥有320亿参数,通过强化学习大幅度提升了模型推理能力,其性能与DeepSeek-R1 671B媲美,本文介绍如何使用ACS算力部署生产可用的QwQ-32B模型推理服务。
|
5月前
|
存储 机器学习/深度学习 算法
阿里云X86/ARM/GPU/裸金属/超算等五大服务器架构技术特点、场景适配与选型策略
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别。本文将深入解析这些架构的特点、优势及适用场景,帮助用户更好地根据实际需求做出选择。
|
5月前
|
弹性计算 Java Maven
从代码到容器:Cloud Native Buildpacks技术解析
Cloud Native Buildpacks(CNB)是一种标准化、云原生的容器镜像构建系统,旨在消除手动编写Dockerfile,提供可重复、安全且高效的构建流程。它通过分层策略生成符合OCI标准的镜像,实现应用与基础镜像解耦,并自动化依赖管理和更新。阿里云应用管理支持通过CNB技术一键部署应用至ECS,简化构建和运行流程。
|
6月前
|
存储 虚拟化 Docker
|
6月前
|
开发工具 虚拟化 git
自学软硬件第755 docker容器虚拟化技术youtube视频下载工具
docker容器虚拟化技术有什么用?怎么使用?TubeTube 项目使用youtube视频下载工具
|
7月前
|
人工智能 云计算 数据中心
阿里云当选UALink联盟董事会成员,推进新一代GPU互连技术!
阿里云当选UALink联盟董事会成员,推进新一代GPU互连技术!
244 2