体验托管Prometheus监控阿里云容器服务Kubernetes的GPU资源-阿里云开发者社区

体验托管Prometheus监控阿里云容器服务Kubernetes的GPU资源

2020-04-08 1765

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 通过ARMS管理Kubernetes集群GPU性能指标在阿里云容器服务中使用GPU资源运行进行AI模型训练和预测时，经常需要了解应用负载的GPU的使用情况，比如每块显存使用情况、GPU利用率，GPU卡温度等监控信息，通过内置ARMS可以从应用的维度去观测GPU的使用情况，了解资源水位，以及设定相应的报警，避免因为GPU资源的约束引发业务风险。

在阿里云容器服务中使用GPU资源运行进行AI模型训练和预测时，经常需要了解应用负载的GPU的使用情况，比如每块显存使用情况、GPU利用率，GPU卡温度等监控信息，通过内置ARMS可以从应用的维度去观测GPU的使用情况，了解资源水位，以及设定相应的报警，避免因为GPU资源的约束引发业务风险。

另外相比自建的Prometheus方案， ARMS的全面托管的 Prometheus 服务可以提供以下特性，更好的为您的业务应用保驾护航

高可用、可扩展的 Prometheus Server
与阿里云容器服务深度集成
监控数据无限存储能力

前提

使用步骤

登录ARMS控制台, 选择Kubernetes所在的集群
在ARMS控制台中prometheus界面中，点击集群列表中需要监控集群的安装按钮。此过程需要2分钟左右，请点击确认。

prometheus_1

3. 在该集群的已安装插件中可以看到 GPU Node和GPU APP,分别从节点维度和应用维度监控GPU资源

prometheus_2

4. 我们可以运行一个TensorFlow的测试程序验证

apiVersion: apps/v1beta1
kind: StatefulSet

metadata:
  name: test
  labels:
    app: test

spec:
  replicas: 1
  serviceName: "test"
  podManagementPolicy: "Parallel"
  selector: # define how the deployment finds the pods it manages
    matchLabels:
      app: test

  template: # define the pods specifications
    metadata:
      labels:
        app: test

    spec:
      hostNetwork: true
      hostPID: true
      containers:
      - name: test
        image: registry.cn-shanghai.aliyuncs.com/tensorflow-samples/tensorflow-gpu-mem:10.0-runtime-centos7
        command:
          - python3
          - /app/main.py
        resources:
          limits:
            nvidia.com/gpu: 1

部署成功后，查看应用的状态，可以知道应用的名称是test-0

# kubectl get po
NAME     READY   STATUS    RESTARTS   AGE
test-0   1/1     Running   0          63m

5. 进入GPU Node从节点维度监控

5.1 可以看到总的监控指标分为三个部分，最上面的部分是GPU的平均温度，总能耗和每个节点的显存使用。可以看到当GPU应用部署之后，节点的GPU

prometheus_3

5.2 而第二部分是GPU的分配状况，代表集群中的GPU中有多少分配给了工作负载；而右侧是每个节点的GPU数量。从本例子中看到部署Pod前GPU分配数目为0，而右侧的值一直是固定的值。

prometheus_4

5.3 第三部分则是以GPU卡的维度展示温度，能耗和使用率

prometheus_5

6. 如果想从应用的角度监控，则可以进入GPU App页面

6.1 第一行的数据是应用test-0使用的显存百分比和显存量

prometheus_6

6.2 第二行和第三行的数据是应用test-0的能耗，使用率和温度

prometheus_7

总结

通过使用托管Prometheus可以以Kubernetes原生的方式对于GPU资源进行监控, 可以帮助你更好的了解GPU基础架构的性能，以及它和业务性能的关系。我们后续还会支持针对GPU共享的监控。

相关实践学习

使用ACS算力快速搭建生成式会话应用

阿里云容器计算服务 ACS（Container Compute Service）以Kubernetes为使用界面，采用Serverless形态提供弹性的算力资源，使您轻松高效运行容器应用。本文将指导您如何通过ACS控制台及ACS集群证书在ACS集群中快速部署并公开一个容器化生成式AI会话应用，并监控应用的运行情况。

深入解析Docker容器化技术

Docker是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的容器中，然后发布到任何流行的Linux机器上，也可以实现虚拟化，容器是完全使用沙箱机制，相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用，获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道，以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。在本套课程中，我们将全面的讲解Docker技术栈，从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品：容器服务 ACK 容器服务 Kubernetes 版（简称 ACK）提供高性能可伸缩的容器应用管理能力，支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力，打造云端最佳容器化应用运行环境。了解产品详情: https://www.aliyun.com/product/kubernetes

体验托管Prometheus监控阿里云容器服务Kubernetes的GPU资源

前提

使用步骤

总结

容器服务

热门文章

最新文章

相关产品

相关课程

相关电子书

推荐镜像