用尽每一寸GPU,阿里云cGPU容器技术帮助人工智能提效降本-阿里云开发者社区

开发者社区> 阿里云弹性计算> 正文

用尽每一寸GPU,阿里云cGPU容器技术帮助人工智能提效降本

简介: 阿里云推出的cGPU容器技术,可以实现容器的安全隔离,业务之间不会互相干扰,各容器之间的故障不会相互传递,更安全、更稳定;同时对客户环境无侵入,如客户无需修改CUDA运行库等,就能让客户灵活地利用容器调度底层GPU资源。
+关注继续查看

人工智能已经深入影响各行各业,作为人工智能实现的主流实现路径,深度学习对算力的需求庞大且波动,上云已成主流趋势。

GPU是人工智能算力的重要来源。互联网及传统企业客户,只要有人工智能相关的业务,都需要租用GPU云服务器来做深度学习模型的训练与推理。

随着显卡技术的不断发展和半导体制程工艺的进步,单张GPU卡算力水涨船高,成本愈发高昂。然而,有许多的深度学习任务,并不需要占用一整张GPU卡。资源调度不够灵活,造成了GPU资源利用率不高。

这时候,用容器调度底层GPU资源就成了一种很好的解决方案。多租户(VM)使用同一张GPU卡,可以依靠vGPU技术实现;而单租户多线程的场景,则可以通过GPU容器共享技术实现。通过在GPU卡之上高密度的容器部署,可以将GPU资源做更细颗粒度的切分,提高资源利用率。

阿里云异构计算近日推出的cGPU容器共享技术,让用户通过容器来调度底层GPU资源,以更细颗粒度调度使用GPU,提高GPU资源利用率,达到降本增效的目的。

目前业界普遍使用GPU容器技术。在容器调度GPU的时候,不同线程中的容器应用可能出现显存资源争抢和互相影响的问题,未能做到容器的完全隔离。比如,对显存资源需求强烈的应用,可能会占用了过多资源,使得另一线程的容器应用显存资源不足。

也就是说只解决了算力争抢的问题,却未能解决故障隔离的问题。比如某企业在跑两个容器中分别运行着GPU的推理应用,一个已经稳定了,一个还在开发阶段。如果其中一个容器中的应用出现故障,由于没有实现很好的隔离技术,往往导致另一容器中的应用也会出现故障。

目前,行业内还有一种改良方案,通过把CUDA运行库替换或者进行调整,这种方案的弊端是用户没法将自身搭建的环境无缝放到云厂商的环境中,而是需要适配和更改CUDA运行库。

阿里云推出的cGPU容器技术,可以实现容器的安全隔离,业务之间不会互相干扰,各容器之间的故障不会相互传递,更安全、更稳定;同时对客户环境无侵入,如客户无需修改CUDA运行库等,就能让客户灵活地利用容器调度底层GPU资源。

阿里云cGPU容器技术的推出,将进一步推动更多的企业使用容器调度底层GPU容器资源,能够毫无后顾之忧地提升GPU资源利用率,实现降本增效。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云新品发布会周刊第68期 丨 阿里云cGPU容器技术重磅发布!
阿里云开放平台全新推出的“阿里云配额中心”,并以GPU资源为例,演示如何通过配额中心在线查看配额,自助申请提升配额和跟踪申请状态。9月9日阿里云新品发布会与您不见不散!
488 0
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
10057 0
基于容器服务的抗疫助学技术实践——阿里云 MVP黄军雷
天津云顶云科技副总经理黄军雷为大家带来基于容器服务的抗疫助学技术实践的介绍。内容包括一个具体的真实的工程实践的总结,基于阿里云优秀的平台能力,尤其是充分发挥容器的优异能力,充分发挥云原生的优势,克服各种困难,保证了业务最终顺利完成,上线后用户好评如潮。为抗击疫情贡献了自己的一份微薄之力。也为在云原生、微服务的探索之路上添加了重要的一笔。
266 0
重磅!阿里自研容器技术Pouch宣布即将开源
今天,阿里巴巴决定以开源的方式回馈社区,希望与开发者共同推动容器技术的发展,共建容器技术标准。
11507 0
地平线推新一代“天工开物”AI开发平台,让人工智能像“水电煤”一样普及
云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 人工智能要像“水电煤”,降低使用门槛是关键。 最近,AI芯片公司地平线为了实现这一点,推出了全新一代AI开放平台——天工开物 (Horizon OpenExplorer™️ Platform)。
842 0
现场体验云效智能代码补全的感觉···
5月29日阿里云开发大会「智能开发与高效运维」分论坛上,云效请来12位阿里巴巴开发运维领域专家,聚焦分享阿里云赋能开发者的系列工具和实践。现场动手训练营吸引近千位开发者体验云原生开发部署、代码安全检测修复和智能代码补全能力。
607 0
【阿里云资讯】Docker首个国内合作商,阿里云何以认定容器技术将成主流?
10月13日,在2016杭州·云栖大会上,全球知名的容器技术公司Docker与阿里云宣布达成战略合作,双方将在容器服务领域进行紧密合作,阿里云称其将为客户提供更加先进的云上应用管理服务。双方称在开源容器技术以及其发展方向共同努力,为客户提供本地化Docker的企业级支持和咨询服务。
4652 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
13871 0
+关注
阿里云弹性计算
做技术领先、性能优异、稳如磐石的弹性计算!
96
文章
0
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载