边缘GPU节点的可观测原理和最佳实践

本文涉及的产品
应用实时监控服务-应用监控,每月50GB免费额度
应用实时监控服务-用户体验监控,每月100OCU免费额度
简介: 介绍ACK Edge接入的边缘GPU节点的可观测原理和最佳实践。

【阅读原文】戳:边缘GPU节点的可观测原理和最佳实践

ACK Edge是针对数据中心、边缘场景推出的云边一体化协同托管方案。ACK Edge可以纳管数据中心和边缘侧的GPU节点,统一管理多地域、多环境的异构算力。阿里云Prometheus监控全面对接开源Prometheus生态,支持类型丰富的组件监控,提供多种开箱即用的预置监控大盘,且提供全面托管的Prometheus服务。

 

ACK Edge和阿里云Prometheus监控的集成,为数据中心和边缘计算的GPU节点提供了与云端一致的高级可观测性体验,本文主要介绍如何利用这种结合实现GPU节点的高效监控,并分享相关最佳实践。

 

 

 

 

边缘节点可观测原理

 

 

 

ACK Edge支持通过专线和公网接入IaaS资源(如IDC节点、第三方云厂商节点、IoT设备等),专线场景下节点与云端互通可以保证节点的可观测正常运行。在公网场景下,ACK Edge为边缘节点提供了一致的可观测体验,如下图所示,Prometheus Server无法直接访问GPU节点,通过Raven组件实现了公网场景下边缘节点的可观测。

 

 

1. prometheus通过节点名称而不是节点IP来采集指标,域名解析时coredns配置了hosts插件,将边缘节点名称解析到raven service。

 

2. prometheus访问raven service,最后会选择service后端的一个网关节点来与边缘侧的网络域通信。

 

3. 网关节点上的raven agent会与IDC网关节点上的raven agent建立加密通道,支持三层和七层通信。

 

4. 在IDC网络域的网关节点上的raven-agent访问目标节点的GPU采集端口获取监控数据。

 

 

 

 

边缘GPU节点的最佳实践

 

 

 

步骤一:开启阿里云Prometheus监控

 

1. 登录容器服务管理控制台,在左侧导航栏选择集群

2. 在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择运维管理 > Prometheus监控

3. 在Prometheus监控页面,按照页面提示完成相关组件的安装和监控大盘的检查。

 

控制台会自动安装组件、检查监控大盘。安装完成后,您可以单击各个页签查看相应监控数据。

 

 

步骤二:添加GPU节点

 

请参考添加GPU节点_容器服务Kubernetes版ACK(ACK)-阿里云帮助中心,进行边缘节点的添加。

 

 

步骤三:部署应用

 

边缘节点接入后,为了验证节点GPU相关指标是否正常,需要在节点上运行一些GPU应用,本文以运行Tensorflow Benchmark项目为例。本例是独占GPU型应用,您还可以在边缘GPU节点上运行共享GPU节点应用,请参见如何配置共享GPU调度仅共享不隔离策略_容器服务Kubernetes版ACK(ACK)-阿里云帮助中心

 

1. 创建Job文件

 

apiVersion: batch/v1
kind: Job
metadata:
  name: tensorflow-benchmark-exclusive
spec:
  parallelism: 1
  template:
    metadata:
      labels:
        app: tensorflow-benchmark-exclusive
    spec:
      containers:
      - name: tensorflow-benchmark
        image: registry.cn-beijing.aliyuncs.com/ai-samples/gpushare-sample:benchmark-tensorflow-2.2.3
        command:
        - bash
        - run.sh
        - --num_batches=5000000
        - --batch_size=8
        resources:
          limits:
            nvidia.com/gpu: 1 #申请1张GPU卡。
        workingDir: /root
      restartPolicy: Never

 

2. 创建资源

 

使用kubectl apply创建资源

在控制台任务>使用YAML创建资源复制上述YAML,点击创建

 

 

步骤四:查看GPU监控2.0大盘

 

GPU监控2.0包含集群维度监控大盘和节点维度监控大盘,两种大盘都提供了诸多面板(Panel),具体的含义请参见监控大盘中各个监控面板的含义是什么_容器服务Kubernetes版 ACK(ACK)-阿里云帮助中心

 

1. 登录容器服务管理控制台,在左侧导航栏选择集群

2. 在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择运维管理 > Prometheus监控

3. 在Prometheus监控大盘列表页面,单击GPU监控页签,然后单击集群GPU监控-集群维度页签。

 


 

4. 在Prometheus监控大盘列表页面,单击GPU监控页签,然后单击集群GPU监控-节点维度页签,选择目标GPUNode,您可以查看节点维度的大盘。

 

 

步骤五:查看边缘GPU节点监控指标

 

GPU监控2.0使用的GPU Exporter在兼容开源DCGM Exporter提供的监控指标的基础上,根据某些业务场景,增加了自定义指标。关于DCGM Exporter的更多信息,请参见DCGM Exporter

 

目前支持的所有的GPU监控指标请参见ACK集群GPU监控2.0指标有哪些_容器服务Kubernetes版ACK(ACK)-阿里云帮助中心,通过以下步骤您可以查看GPU的相关监控指标。

 

1. 登录ARMS控制台。

2. 在顶部菜单栏,选择集群所在的地域。

3. 在左侧导航栏,选择指标中心>指标探索>选择实例

4. 在搜索框输入您想要查看的监控指标以及相应的过滤条件。

 

 


相关文档:

 

[1] 什么是可观测监控Prometheus版_应用实时监控服务(ARMS)-阿里云帮助中心

https://help.aliyun.com/zh/arms/prometheus-monitoring/product-overview/what-is-prometheus#concept-662038

 

[2] ACK Edge集群_容器服务Kubernetes版ACK(ACK)-阿里云帮助中心

https://help.aliyun.com/zh/ack/ack-edge/?spm=a2c4g.11174283.help-menu-sub-85222.d_3.48bd6abdHKxrG6

 

[3] 什么是边缘集群跨域运维通信组件Raven_容器服务Kubernetes版ACK(ACK)-阿里云帮助中心

https://help.aliyun.com/zh/ack/ack-edge/user-guide/cloud-edge-communication-component-raven-overview?scm=20140722.S_help%40%40%E6%96%87%E6%A1%A3%40%402585288.S_BB2%40bl%2BRQW%40ag0%2BBB1%40ag0%2Bos0.ID_2585288-RL_raven-LOC_doc%7EUND%7Eab-OR_ser-PAR1_2102029b17389850631537120d9b47-V_4-P0_0-P1_0&spm=a2c4g.11186623.d_help_search.i1

 

[4] 传统型负载均衡CLB的操作指南_负载均衡(SLB)-阿里云帮助中心

https://help.aliyun.com/zh/slb/user-guide/traditional-load-balancing-clb-operation-guide?spm=a2c4g.11174283.help-menu-27537.d_2_3.775410ff38AR5T

 

[5] 添加GPU节点_容器服务Kubernetes版ACK(ACK)-阿里云帮助中心

https://help.aliyun.com/zh/ack/ack-edge/user-guide/add-a-gpu-node?scm=20140722.S_help%40%40%E6%96%87%E6%A1%A3%40%402854640.S_BB1%40bl%2BBB2%40bl%2BRQW%40ag0%2Bhot%2Bos0.ID_2854640-RL_gpu-LOC_doc%7EUND%7Eab-OR_ser-V_4-P0_0&spm=a2c4g.11186623.d_help_search.i1

 

[6] 如何配置共享GPU调度仅共享不隔离策略_容器服务Kubernetes版ACK(ACK)-阿里云帮助中心

https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/configure-shared-gpu-scheduling-only-share-no-isolation-policy?spm=a2c4g.11186623.0.0.5dc1b4f0nJtYBk

 

[7] 监控大盘中各个监控面板的含义是什么_容器服务Kubernetes版ACK(ACK)-阿里云帮助中心

https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/panels?spm=a2c4g.11186623.help-menu-85222.d_2_13_8_0_2.2ce93d3aCgyHs3

 

[8] GitHub-NVIDIA/dcgm-exporter: NVIDIA GPU metrics exporter for Prometheus leveraging DCGM

https://github.com/NVIDIA/dcgm-exporter

 

[9] ACK集群GPU监控2.0指标有哪些_容器服务Kubernetes版ACK(ACK)-阿里云帮助中心

https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/introduction-to-metrics?spm=a2c4g.11186623.help-menu-85222.d_2_13_8_0_3.29ca7331J8tzzn



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
打赏
0
2
2
0
235
分享
相关文章
AI 场景下,函数计算 GPU 实例模型存储最佳实践
AI 场景下,函数计算 GPU 实例模型存储最佳实践
AI 场景下,函数计算 GPU 实例模型存储最佳实践
当前,函数计算 FC 已被广泛应用在各种 AI 场景下,函数计算支持通过使用容器镜像部署 AI 推理应用,并且提供多种选项来访问训练好的模型。为了帮助开发者高效地在函数计算上部署 AI 推理应用,并快速解决不同场景下的模型存储选型问题,本文将对函数计算的 GPU 模型存储的优缺点及适用场景进行对比分析,以期为您的模型存储决策提供帮助。
【AI系统】GPU 工作原理
本文详细解析了AI计算体系中的GPU工作原理,重点介绍了GPU与CPU在架构上的差异,强调了GPU在并行计算方面的优势。文章通过$AX+Y$的例子,展示了GPU如何通过并行和并发提高计算效率,并深入探讨了GPU的缓存机制及线程原理,解释了GPU如何通过大量线程和Warp来掩盖延迟问题,实现高效计算。
191 0
【GPU】GPU CUDA 编程的基本原理是什么?
【GPU】GPU CUDA 编程的基本原理是什么?
237 0
2024 Quai Network全节点+GPU节点搭建手把手教程
融资千万的明星项目QuaiNetwork可能大家都知道,这项目融资了两轮,加起来上千万美金,算是这两年为数不多的明牌空投的好项目。这两天旷工群里非常热闹就是因为QuaiNetwork测试网铁器时代开挖了,本次一共发放1200万个代币,其中全节点矿工分配了800万个,不过因为搭建全节点稍微复杂了些,坑很多,导致把一部分矿工挡在了门槛之外。本人经过2天的摸索、试错,埋伏官方开发者discord群4天,终于开挖成功,赶紧总结了篇教程,分享给大家。
1379 0
2024 Quai Network全节点+GPU节点搭建手把手教程
NVIDIA GPU Operator分析六:NVIDIA GPU Operator原理分析
背景我们知道,如果在Kubernetes中支持GPU设备调度,需要做如下的工作:节点上安装nvidia驱动节点上安装nvidia-docker集群部署gpu device plugin,用于为调度到该节点的pod分配GPU设备。除此之外,如果你需要监控集群GPU资源使用情况,你可能还需要安装DCCM exporter结合Prometheus输出GPU资源监控信息。要安装和管理这么多的组件,对于运维
2948 0
基于ACK One注册集群实现IDC中K8s集群添加云上CPU/GPU节点
在前一篇文章《基于ACK One注册集群轻松实现云上云下K8s集群统一管理》中,我们注重介绍了注册集群的应用场景,架构实现,安全加固,以及在他云K8s集群和IDC自建K8s集群中使用阿里云容器服务ACK的强大可观测性能力,实现云上云下K8s集群的统一运维管理。本文会重点介绍ACK One注册集群的另一个重要使用场景--云上弹性。概述ACK One注册集群的云上弹性能力针对的场景:业务快速增长:在本
基于ACK One注册集群实现IDC中K8s集群添加云上CPU/GPU节点
GPU架构及异构计算介绍GPU架构以及异构计算的基本原理
GPU架构及异构计算介绍GPU架构以及异构计算的基本原理
1063 0
GPU架构及异构计算介绍GPU架构以及异构计算的基本原理
Android GPU呈现模式原理及卡顿掉帧浅析
Android GPU呈现模式原理及卡顿掉帧浅析
1035 0
Android GPU呈现模式原理及卡顿掉帧浅析

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等