【Python】GPU内存监控脚本

简介: 【Python】GPU内存监控脚本

相信很多小伙伴在项目中,需要监控GPU的使用状态,打开任务管理器,你会发现可以显示GPU的运行状态,但是无法将这些数据保留下来,这里我制作了python脚本用于监控专用GPU的使用情况!我使用的显卡是NVIDIA GeForce GTX 1660 Ti。、

(关注“测试开发自动化” 弓中皓,获取更多学习内容)

任务管理器中的专用GPU内存和共享GPU内存的含义是什么呢?

(1)专用GPU内存

分为两种情况:独显(独立显卡)和 集显(集成显卡)

独显:是指单独的GPU PCIe卡,专有GPU内存就是指该GPU显卡上自带的内存,它只能够被GPU使用,而且带宽很高,延迟很小。

集显:BIOS把一部分内存在内存初始化后保留下来给GPU专用

(2)共享GPU内存

是操作系统Windows从系统内存中划出来,优先给GPU使用的内存

(3)GPU内存

GPU内存=专用GPU内存+共享GPU内存

二、python代码实现

#!/usr/bin/python
# -*- coding: utf-8 -*-

import time
import pynvml
from matplotlib import pyplot as plt
import matplotlib.backends.backend_tkagg


class GPUMonitor(object):
    def __init__(self, sleep_time):
        pynvml.nvmlInit()
        pynvml.nvmlSystemGetDriverVersion()
        self.GPUCounts = pynvml.nvmlDeviceGetCount()
        self.GPU_counts_list = [[]] * self.GPUCounts
        self.time = [[]] * self.GPUCounts
        self.sleep_time = sleep_time  # 秒

    def monitor(self):
        try:
            n = 0
            while True:
                GPUCount = 0
                # 读取GPU句柄
                handle = pynvml.nvmlDeviceGetHandleByIndex(GPUCount)
                # 读取GPU内存信息
                info = pynvml.nvmlDeviceGetMemoryInfo(handle)
                total = f'{(info.total / 1024 / 1024 / 1024):.2f}'
                used = f'{(info.used / 1024 / 1024 / 1024):.2f}'
                free = f'{(info.free / 1024 / 1024 / 1024):.2f}'
                print(self.logfile(">>>>>>正在监控第{}块GPU内存<<<<<<<\n"
                                   "脚本已运行{}秒\n专用GPU内存:{}G\n"
                                   "已使用专用CPU内存:{}G\n剩余专用GPU内存:{}G\n"
                                   .format(GPUCount, n, float(total), float(used), float(free))))
                self.GPU_counts_list[GPUCount].append(float(used))
                self.time[GPUCount].append(n)
                self.paint(self.time[0], self.GPU_counts_list[0])
                time.sleep(self.sleep_time)
                n += self.sleep_time

        except:
            plt.savefig("CPU内存使用量.png")
            pynvml.nvmlShutdown()

    def paint(self, x_list, y_list):
        plt.clf()
        plt.plot(x_list, y_list)
        plt.title("GPU Usage Monitoring")
        plt.ylabel("GPU dedicated memory /G")
        plt.xlabel("time/s")
        plt.pause(0.1)  # 暂停一秒
        plt.ioff()

    def logfile(self, text):
        with open('image.log', 'a+', encoding='utf-8') as f:
            t = time.strftime('%y-%m-%d %H:%M:%S')
            text = t + " " + text + '\n'
            f.write(text)
        f.close()
        return text

    def abnormal(self):
        length = len(self.GPU_counts_list[0])
        average = sum(self.GPU_counts_list)/length
        self.logfile("平均专用GPU占用为:{}G".format(average))
        plt.savefig("CPU内存使用量.png")


if __name__ == "__main__":
    while True:
        times = input("请输入监控间隔时间(整秒>0),按回车键开启监控:")
        if times.isdigit():
            if int(times) > 0:
                break
    a = GPUMonitor(int(times))
    try:
        a.monitor()
    except:
        plt.savefig("CPU内存使用量.png")

三、使用方法

(1)运行python代码后会提示输入监控间隔时间,即每隔几秒监控一次(这里我设置的是整秒,也根据需求改成非整秒),这里我选择每隔一秒监控一次。

03e0ee4b672d4e45801c8ba1055d48d6.png

(2)脚本启动后,会看到内存监控脚本已经开始运行,并在终端打印了监控信息;

(3)同时,能够显示实时的监控折线图信息;

(4)如果需要保存,点击(3)步中下方的的保存按钮即可。

(5)同时,也会生成存储监控信息的日志文件,供使用者查看。

如果对您有帮助,收藏+关注再走吧!!!

(关注“测试开发自动化” 弓中皓,获取更多学习内容)

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
1月前
|
缓存 并行计算 PyTorch
PyTorch CUDA内存管理优化:深度理解GPU资源分配与缓存机制
本文深入探讨了PyTorch中GPU内存管理的核心机制,特别是CUDA缓存分配器的作用与优化策略。文章分析了常见的“CUDA out of memory”问题及其成因,并通过实际案例(如Llama 1B模型训练)展示了内存分配模式。PyTorch的缓存分配器通过内存池化、延迟释放和碎片化优化等技术,显著提升了内存使用效率,减少了系统调用开销。此外,文章还介绍了高级优化方法,包括混合精度训练、梯度检查点技术及自定义内存分配器配置。这些策略有助于开发者在有限硬件资源下实现更高性能的深度学习模型训练与推理。
222 0
|
4月前
|
监控 算法 安全
深度洞察内网监控电脑:基于Python的流量分析算法
在当今数字化环境中,内网监控电脑作为“守城卫士”,通过流量分析算法确保内网安全、稳定运行。基于Python的流量分析算法,利用`scapy`等工具捕获和解析数据包,提取关键信息,区分正常与异常流量。结合机器学习和可视化技术,进一步提升内网监控的精准性和效率,助力企业防范潜在威胁,保障业务顺畅。本文深入探讨了Python在内网监控中的应用,展示了其实战代码及未来发展方向。
|
1月前
|
数据采集 数据可视化 大数据
Python入门修炼:开启你在大数据世界的第一个脚本
Python入门修炼:开启你在大数据世界的第一个脚本
77 6
|
2月前
|
SQL Oracle 关系型数据库
【YashanDB知识库】共享利用Python脚本解决Oracle的SQL脚本@@用法
【YashanDB知识库】共享利用Python脚本解决Oracle的SQL脚本@@用法
|
2月前
|
监控 算法 安全
基于 Python 广度优先搜索算法的监控局域网电脑研究
随着局域网规模扩大,企业对高效监控计算机的需求增加。广度优先搜索(BFS)算法凭借其层次化遍历特性,在Python中可用于实现局域网内的计算机设备信息收集、网络连接状态监测及安全漏洞扫描,确保网络安全与稳定运行。通过合理选择数据结构与算法,BFS显著提升了监控效能,助力企业实现智能化的网络管理。
49 7
|
2月前
|
SQL Oracle 关系型数据库
【YashanDB知识库】共享利用Python脚本解决Oracle的SQL脚本@@用法
本文来自YashanDB官网,介绍如何处理Oracle客户端sql*plus中使用@@调用同级目录SQL脚本的场景。崖山数据库23.2.x.100已支持@@用法,但旧版本可通过Python脚本批量重写SQL文件,将@@替换为绝对路径。文章通过Oracle示例展示了具体用法,并提供Python脚本实现自动化处理,最后调整批处理脚本以适配YashanDB运行环境。
|
2月前
|
SQL 关系型数据库 数据库连接
|
4月前
|
安全 Linux 网络安全
利用Python脚本自动备份网络设备配置
通过本文的介绍,我们了解了如何利用Python脚本自动备份网络设备配置。该脚本使用 `paramiko`库通过SSH连接到设备,获取并保存配置文件。通过定时任务调度,可以实现定期自动备份,确保网络设备配置的安全和可用。希望这些内容能够帮助你在实际工作中实现网络设备的自动化备份。
132 14
|
22天前
|
Arthas 监控 Java
Arthas memory(查看 JVM 内存信息)
Arthas memory(查看 JVM 内存信息)
59 6
|
2月前
|
存储 缓存 算法
JVM简介—1.Java内存区域
本文详细介绍了Java虚拟机运行时数据区的各个方面,包括其定义、类型(如程序计数器、Java虚拟机栈、本地方法栈、Java堆、方法区和直接内存)及其作用。文中还探讨了各版本内存区域的变化、直接内存的使用、从线程角度分析Java内存区域、堆与栈的区别、对象创建步骤、对象内存布局及访问定位,并通过实例说明了常见内存溢出问题的原因和表现形式。这些内容帮助开发者深入理解Java内存管理机制,优化应用程序性能并解决潜在的内存问题。
201 29
JVM简介—1.Java内存区域

热门文章

最新文章