带你读《弹性计算技术指导及场景应用》——2. vGPU资源利用率的提升、监控与告警的实现

本文涉及的产品
资源编排,不限时长
无影云电脑企业版,4核8GB 120小时 1个月
无影云电脑个人版,1个月黄金款+200核时
简介: 带你读《弹性计算技术指导及场景应用》——2. vGPU资源利用率的提升、监控与告警的实现

简介:随着AI计算及云游戏为代表的图形渲染业务的飞速发展,越来越多的企业和个人开始使用GPU实例。同时,由于GPU算力资源成本较高,对于负载相对较小的业务,客户会更倾向于选择使用1/2或者1/4甚至更小的vGPU实例来运行其业务,vGPU技术随之得以迅速发展。

背景

随着AI计算及云游戏为代表的图形渲染业务的飞速发展,越来越多的企业和个人开始使用GPU实例。同时,由于GPU算力资源成本较高,对于负载相对较小的业务,客户会更倾向于选择使用1/2或者1/4甚至更小的vGPU实例来运行其业务,vGPU技术随之得以迅速发展。

目前主流的vGPU技术是通过对物理GPU资源进行显存切分隔离,然后以时间片轮转的方式调度使用GPU资源。这就要求对物理GPU进行合理的切分、调度管理,并且能够及时监控物理GPUvGPU的利用率、性能及健康状态,并且在GPU/vGPU异常时能够及时告知用户或研发人员,以便及时解决问题、避免长时间影响客户的业务。

下面,分两部分介绍下在阿里云上是如何提升vGPU资源利用率的,并且如何对vGPU进行监控与告警。

vGPU利用率的提升

当前主流的vGPU实例实现方案大体是这样的:首先将物理GPU切分为多个vGPU,然后根据资源分配策略将物理GPU上的vGPU分配给Guest VM,最后再根据调度策略将这些vGPU通过time-sliced的方式轮流使用GPUGraphics/Compute3D、编解码等引擎资源。在时间切片 vGPU 中,在 vGPU 上运行的进程被安排为串行运行。当进程在 vGPU 上运行时,vGPU 独占使用 GPU 的引擎,其它vGPU都会等待,直到自己的时间片到来。

在云厂商使用的主流的vGPU切分方案中,为了降低单物理GPU故障时对vGPU实例的影响,通常采用Breadth-first分配策略,即广度优先遍历算法,该策略尝试最小化每个物理 GPU上运行的 vGPU 数量,即分配支持该vGPU且其上运行vGPU数量最少的的物理GPU。然后,使用Fixed share按照time-sliced时间片轮转的方式将运行在vGPU上的业务调度到GPU引擎上,轮流使用GPUGraphics/Compute3D、编解码等引擎资源。在时间切片 vGPU 中,在 vGPU 上运行的进程被安排为串行运行。

当进程在 vGPU 上运行时,vGPU独占使用 GPU 的引擎,其它vGPU 都会等待,直到自己的时间片到来。该调度策略在云上可以保证各个vGPU实例的公平,避免graphics-intensive业务抢占graphics-light业务的运行时间。

但是,随着vGPU技术的日趋完善与稳定性的不断提高,加之很多云厂商为了提高物理GPU资源利用率,都支持了vGPU混部技术,阿里云的vGPU混部的实现需要考虑与老版本兼容,大体实现步骤为:

∙        查询Host上的GPU信息,切片时会使用该信息。

∙        查询当前某GPU上的vGPU信息,用于分配给待创建的vGPU实例。

∙        根据创建的实例机型,分配空闲的vGPU device。当没有空闲的vGPU时,选择空闲GPU进行切片,并分配vGPU device给实例。

∙        当某个GPU上的vGPU实例全部释放时,需要清除该GPU的切片信息,以便下次重新切片成其它规格的vGPU device

∙        切片的实现与释放都由管控侧操作,避免了上下信息不一致带来的实例启动失败等问题。

∙        混部的实现中,需要指定vGPU所属GPUBDF,以此来区分老版本,确保新老版本在现网正常运行。

由此可以看出,Breadth-frist分配策略与vGPU混部之间存在冲突,无法共存,这就降低了物理GPU资源的可用率。举个例子来说,例如在一个Host上有4个物理GPU,理论上可以创建81/2 vGPU实例或者161/4 vGPU实例。

如果采用breadth-first,客户A使用41/2实例,客户B使用41/4实例,如果客户A先创建实例,那么这41/2实例会占用4个物理GPU实例,导致客户B的实例无法创建。而使用depth-first,客户A41/2实例会使用2个物理GPU,客户B1/4实例则会使用另外2个物理GPU,显著提升了物理GPU的资源利用率,也就提高了资源售卖率、降低了成本。混部效果如下图所示:

image.png

目前已经支持1/11/24规格的vGPU切分,极大的方便了客户根据自身业务选择合适的规格,降低了客户成本,同时提高了GPU资源利用率。

vGPU的监控与告警

vGPU实例的最大客户就是云游戏,而云游戏对性能有极高的要求,例如大多数游戏需要满足60 FPS的要求,这就要求vGPU性能不能出现抖动和卡顿。而这类性能问题是无法通过日志来定位的,加上掉卡、TDR等常见问题的频发,监控与告警机制就显得尤为重要了。由于现有的监控工具容易导致Host vGPU driver死锁、CPU利用率冲高甚至hang住等问题,我们自己开发了一套vGPU监控程序来监控vGPU状态,大体步骤如下:

∙        当机器部署上线后,监控任务开始启动,当vGPU VM启动后,开始采集物理GPUvGPU相关信息,包括GPU温度、功耗、显存使用情况、GPU/vGPU利用率等,甚至还包括vGPU上进程的利用率以及license状态等信息。

∙        vGPU智能监控已经完全接入嫦娥,运维及研发同学在定位vGPU相关问题时,可以清晰直观地通过嫦娥上的监控信息进行分析与定位。目前已将上述所有信息都接入嫦娥监控,包括GPU的温度、功耗、显存利用率、GPU利用率、clock、编解码等:

image.png

image.png

image.png

还有vGPU相关的信息,包括vGPU利用率、显存利用率、进程利用率、编解码利用率、license状态等等。

image.png

设置各个指标的告警阈值,当达到阈值时触发告警,并及时通知到开发、运维人员,有必要时通知客户系统管理员,以便及时处理问题,保证系统和客户业务的稳定运行。

结合vGPU热迁移技术,将GPU负载高且满足热迁移条件的vGPU实例迁移到GPU负载低的Host上,达到负载均衡的目的,保证vGPU业务高效稳定的运行。

通过对用户实例使用vGPU情况进行大数据统计分析,了解典型客户、典型场景的真实资源需求情况,辅助PD进行产品设计,支撑异构实例研发的方向决策,制定更合理的实例规格,对剩余的CPU或内存资源与主售实例进行混买,提高实例密度、降低成本。

根据上述嫦娥展示的监控数据,就可以很方便的来定位vGPU实例性能问题, 例如:

∙        对于FPS持续很低等问题,可以关注vGPULicense是否激活,1代表已激活,0代表未激活;

∙        对于FPS达不到预期的60等问题,可以关注GPU的功耗、温度、利用率等是否已经到达瓶颈;

∙        对于VM内应用性能、卡顿等问题,可以关注vGPU中的各项利用率指标是否正常;

当然了,Host驱动与Guest驱动版本是否匹配,clock是否有限频等,也可能导致性能问题。

如果以上都正常,就要结合是否有XID errorCPU、内存、网络、磁盘等是否有瓶颈来综合定位了。

结束语

阿里云的vGPU实现方案,集vGPU混部、监控告警、热迁移于一体,不仅最大的提高了GPU资源售卖率,而且为开发、运维人员定位GPU/vGPU的功能、性能问题带来了极大的便利,还能通过告警及早发现各类问题,确保客户业务稳定、高效的运行。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
7月前
|
存储 弹性计算 监控
【阿里云弹性计算】阿里云 ECS 性能优化秘籍:提升应用响应速度与资源利用率
【5月更文挑战第22天】阿里云ECS优化涉及实例规格选择、OS与应用配置、网络配置、存储优化及数据库连接池管理。合理挑选CPU和内存,关闭无关服务,利用EIP和负载均衡优化网络,选择合适存储类型,并通过监控工具进行性能分析和压力测试,以提升响应速度,优化资源利用率,降低成本,增强企业竞争力。示例展示了Java数据库连接池配置优化。通过持续探索和实践,可最大化发挥ECS潜力。
210 7
|
7月前
|
弹性计算 监控 安全
【阿里云弹性计算】ECS实例监控与告警系统构建:利用阿里云监控服务保障稳定性
【5月更文挑战第23天】在数字化时代,阿里云弹性计算服务(ECS)为业务连续性提供保障。通过阿里云监控服务,用户可实时监控ECS实例的CPU、内存、磁盘I/O和网络流量等指标。启用监控,创建自定义视图集中显示关键指标,并设置告警规则(如CPU使用率超80%),结合多种通知方式确保及时响应。定期维护和优化告警策略,利用健康诊断工具,能提升服务高可用性和稳定性,确保云服务的卓越性能。
266 1
|
7月前
|
消息中间件 存储 容灾
AutoMQ 云上十倍成本节约的奥秘: SPOT 实例
AutoMQ Kafka 优化设计,充分利用云基础设施,尤其是成本低廉的Spot实例,实现公有云成本节约。尽管Spot实例的不确定性可能导致服务中断,AutoMQ通过Broker无状态化、快速弹性扩展和Serverless支持,以及应对Spot实例回收的优雅停机和容灾机制,确保了可靠的Kafka服务。混合使用按需实例以保证关键服务稳定,同时在面临Spot实例库存不足时,具备回退到按需实例的能力。AutoMQ Kafka通过创新技术在稳定性与成本之间找到了平衡,为用户提供灵活且经济高效的解决方案。
126 0
AutoMQ 云上十倍成本节约的奥秘: SPOT 实例
|
7月前
|
存储 弹性计算 监控
【阿里云弹性计算】成本优化实战:利用阿里云 ECS 抢占式实例节省云支出
【5月更文挑战第21天】阿里云ECS的抢占式实例提供了一种成本优化策略,适合对中断容忍度较高的业务。通过创建和管理抢占式实例,结合API查询价格信息,企业能节省大量成本。使用时注意业务容错性,设置监控系统应对中断,结合其他成本优化措施,如存储类型选择和网络配置优化。确保业务可恢复性,关注阿里云政策,并根据业务变化调整策略,以实现成本与效益的最佳平衡。
144 3
|
6月前
|
监控 关系型数据库 Serverless
PolarDB产品使用合集之serverless监控指标中如何监测某个节点的负载或资源占用情况
PolarDB是阿里云推出的一种云原生数据库服务,专为云设计,提供兼容MySQL、PostgreSQL的高性能、低成本、弹性可扩展的数据库解决方案,可以有效地管理和优化PolarDB实例,确保数据库服务的稳定、高效运行。以下是使用PolarDB产品的一些建议和最佳实践合集。
|
7月前
|
弹性计算 数据库 云计算
【阿里云弹性计算】云成本管理艺术:利用阿里云ECS预留实例节约成本
【5月更文挑战第26天】阿里云ECS预留实例助力企业有效管理云成本,提供预付费计费模式,降低高达70%的费用。适合长期稳定需求、可预测业务高峰和批量部署场景。通过预留实例,企业能确保资源保障、灵活调整并节约成本,实现成本优化与业务连续性的平衡。
149 0
|
7月前
|
弹性计算 运维 Cloud Native
阿里云云原生弹性方案,用弹性解决集群资源利用率难题
本文主要介绍了通过弹性,实现成本优化,解决集群资源利用率难题。
92783 8
|
7月前
|
存储 缓存 弹性计算
快如闪电的扩容:秒级启动,弹性伸缩让您无忧
快如闪电的扩容:秒级启动,弹性伸缩让您无忧
153 0
|
7月前
|
关系型数据库 Serverless 分布式数据库
针对PolarDB的Serverless能力从资源弹升速度、资源伸缩广度以及资源伸缩的稳定性三个维度的产品测评
针对PolarDB的Serverless能力从资源弹升速度、资源伸缩广度以及资源伸缩的稳定性三个维度的产品测评
242 0
|
7月前
|
编解码 监控 调度
GPU实例使用--vGPU资源利用率的提升、监控与告警的实现
随着AI计算及云游戏为代表的图形渲染业务的飞速发展,越来越多的企业和个人开始使用GPU实例。同时,由于GPU算力资源成本较高,对于负载相对较小的业务,客户会更倾向于选择使用1/2或者1/4甚至更小的vGPU实例来运行其业务,vGPU技术随之得以迅速发展。
下一篇
DataWorks