python绘制热力图-数据处理-VOC数据类别标签分布及数量统计(附代码)

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: python绘制热力图-数据处理-VOC数据类别标签分布及数量统计(附代码)

前言

当你需要统计训练数据中每个类别标签有多少,并且想知道坐标中心分布在图像的位置信息时,你可以利用一下脚本进行计算!

步骤

要绘制热力图来分析VOC数据的分布统计,可以按照以下步骤进行:


  • 数据处理:首先,你需要读取VOC数据集的标注文件,可以使用Python中的XML解析库(如xml.etree.ElementTree)或者专门用于处理VOC数据集的工具库(如vocparse)来解析XML文件。解析后,你可以获取每个样本的标注信息,包括目标类别、边界框位置等。
  • 统计数据分布:遍历所有样本的标注信息,统计每个类别在图像中出现的次数或占比。根据需要,你可以选择统计全局的数据分布,或者针对特定区域或图像子集进行统计。将统计结果存储在一个二维数组或字典中,以便后续生成热力图。
  • 绘制热力图:根据统计结果,使用Python中的数据可视化库(如matplotlib、seaborn等)来绘制热力图。热力图可以使用颜色来表示数据的密度或占比。一种常见的绘制方法是使用imshow函数,传入统计结果的二维数组,设置合适的颜色映射和标签等。


代码块

import os
import xml.etree.ElementTree as ET
import matplotlib.pyplot as plt
import numpy as np
import matplotlib.pyplot as plt

# VOC数据集路径
dataset_path = 'Annotations/'

# 存储标签及其对应的目标框数量
label_counts = {}
image_width = 1280
image_height = 960
block_size = 40

# 创建一个二维数组,用于存储每个块中目标框的数量
block_counts = np.zeros((image_height // block_size, image_width // block_size))

# 遍历数据集中的每个XML文件
i=0
for filename in os.listdir(dataset_path):
    if filename.endswith('.xml'):
        # 解析XML文件
        tree = ET.parse(os.path.join(dataset_path, filename))
        root = tree.getroot()

        # 遍历XML文件中的所有目标框
        for obj in root.findall('object'):
            label = obj.find('name').text
            if label=='vehicle':
                
                xmin = int(float(obj.find('bndbox/xmin').text))
                ymin = int(float(obj.find('bndbox/ymin').text))
                xmax = int(float(obj.find('bndbox/xmax').text))
                ymax = int(float(obj.find('bndbox/ymax').text))
                x_pixel = int((xmin + ymin) / 2)
                y_pixel = ymax
                
                # 将底部中心点映射到相应的像素块
                block_x = x_pixel // block_size
                block_y = y_pixel // block_size

                # 统计该像素块中目标框的数量
                block_counts[block_y, block_x] += 1
                i+=1
plt.imshow(block_counts, cmap='hot')
plt.colorbar()

# 设置坐标轴
plt.xlabel('Blocks (50x50 pixels)')
plt.ylabel('Blocks (50x50 pixels)')
plt.title('Object Distribution Heatmap')

# 显示热力图
plt.show()
print(block_counts)
print("该标签有",i)

            


代码讲解

在进行VOC数据集的类别标签分布和数量统计时,有以下几个需要注意的点:

  • 数据集路径:确保设置正确的数据集路径,指向包含XML文件的文件夹。
  • 标签统计:使用一个字典或其他适合的数据结构来存储每个标签及其对应的目标框数量。可以使用标签作为键,目标框数量作为值。
  • XML解析:使用适当的XML解析库(如xml.etree.ElementTree)解析XML文件。检查XML文件中的标签结构,并定位到目标框的位置信息。
  • 目标框位置信息:目标框通常由左上角和右下角的坐标表示(例如xmin、ymin、xmax、ymax)。确保正确提取这些坐标,并转换为适当的格式。
  • 统计目标框数量:根据目标框的位置信息,可以将它们映射到图像的像素块中,并在相应的像素块中递增目标框数量。这样就可以统计每个像素块中目标框的数量。
  • 绘制热力图:使用合适的可视化库(如matplotlib.pyplot)绘制热力图,以展示目标分布情况。热力图的颜色可以根据目标框数量的大小进行渐变。
  • 坐标轴和标题:设置适当的坐标轴标签和标题,以说明热力图的含义和解释。
  • 显示热力图:使用适当的函数(如plt.show())显示生成的热力图。
import os  # 导入os模块,用于文件操作
import xml.etree.ElementTree as ET  # 导入xml.etree.ElementTree模块,用于解析XML文件
import matplotlib.pyplot as plt  # 导入matplotlib.pyplot模块,用于绘图
import numpy as np  # 导入numpy模块,用于科学计算

VOC数据集路径

dataset_path = 'Annotations/'
存储标签及其对应的目标框数量
label_counts = {}


图像的宽度和高度

image_width = 1280
image_height = 960

每个像素块的大小

block_size = 40

创建一个二维数组,用于存储每个块中目标框的数量

block_counts = np.zeros((image_height // block_size, image_width // block_size))

遍历数据集中的每个XML文件

i = 0
for filename in os.listdir(dataset_path):
    if filename.endswith('.xml'):
        # 解析XML文件
        tree = ET.parse(os.path.join(dataset_path, filename))
        root = tree.getroot()
    # 遍历XML文件中的所有目标框
    for obj in root.findall('object'):
        label = obj.find('name').text
        
        # 判断标签是否为'vehicle'
        if label == 'vehicle':
            # 获取目标框的坐标信息
            xmin = int(float(obj.find('bndbox/xmin').text))
            ymin = int(float(obj.find('bndbox/ymin').text))
            xmax = int(float(obj.find('bndbox/xmax').text))
            ymax = int(float(obj.find('bndbox/ymax').text))
            
            # 计算目标框的底部中心点坐标
            x_pixel = int((xmin + ymin) / 2)
            y_pixel = ymax
            
            # 将底部中心点映射到相应的像素块
            block_x = x_pixel // block_size
            block_y = y_pixel // block_size

            # 统计该像素块中目标框的数量
            block_counts[block_y, block_x] += 1
            i += 1

绘制热力图

plt.imshow(block_counts, cmap='hot')
plt.colorbar()

设置坐标轴和标题

plt.xlabel('Blocks (50x50 pixels)')
plt.ylabel('Blocks (50x50 pixels)')
plt.title('Object Distribution Heatmap')

显示热力图

plt.show()
print(block_counts)
print("该标签有", i)
#联系 qq 1309399183
相关文章
|
4天前
|
数据采集 NoSQL 关系型数据库
Python爬虫去重策略:增量爬取与历史数据比对
Python爬虫去重策略:增量爬取与历史数据比对
|
7天前
|
数据采集 存储 缓存
Python爬虫与代理IP:高效抓取数据的实战指南
在数据驱动的时代,网络爬虫是获取信息的重要工具。本文详解如何用Python结合代理IP抓取数据:从基础概念(爬虫原理与代理作用)到环境搭建(核心库与代理选择),再到实战步骤(单线程、多线程及Scrapy框架应用)。同时探讨反爬策略、数据处理与存储,并强调伦理与法律边界。最后分享性能优化技巧,助您高效抓取公开数据,实现技术与伦理的平衡。
40 4
|
17天前
|
数据采集 搜索推荐 API
Python 原生爬虫教程:京东商品列表页面数据API
京东商品列表API是电商大数据分析的重要工具,支持开发者、商家和研究人员获取京东平台商品数据。通过关键词搜索、分类筛选、价格区间等条件,可返回多维度商品信息(如名称、价格、销量等),适用于市场调研与推荐系统开发。本文介绍其功能并提供Python请求示例。接口采用HTTP GET/POST方式,支持分页、排序等功能,满足多样化数据需求。
|
19天前
|
数据采集 存储 JSON
用Python爬虫抓取数据并保存为JSON的完整指南
用Python爬虫抓取数据并保存为JSON的完整指南
|
17天前
|
数据采集 API 数据格式
Python 原生爬虫教程:京东商品详情页面数据API
本文介绍京东商品详情API在电商领域的应用价值及功能。该API通过商品ID获取详细信息,如基本信息、价格、库存、描述和用户评价等,支持HTTP请求(GET/POST),返回JSON或XML格式数据。对于商家优化策略、开发者构建应用(如比价网站)以及消费者快速了解商品均有重要意义。研究此API有助于推动电商业务创新与发展。
|
1月前
|
机器学习/深度学习 存储 设计模式
Python 高级编程与实战:深入理解性能优化与调试技巧
本文深入探讨了Python的性能优化与调试技巧,涵盖profiling、caching、Cython等优化工具,以及pdb、logging、assert等调试方法。通过实战项目,如优化斐波那契数列计算和调试Web应用,帮助读者掌握这些技术,提升编程效率。附有进一步学习资源,助力读者深入学习。
|
28天前
|
人工智能 Java 数据安全/隐私保护
[oeasy]python081_ai编程最佳实践_ai辅助编程_提出要求_解决问题
本文介绍了如何利用AI辅助编程解决实际问题,以猫屎咖啡的购买为例,逐步实现将购买斤数换算成人民币金额的功能。文章强调了与AI协作时的三个要点:1) 去除无关信息,聚焦目标;2) 将复杂任务拆解为小步骤,逐步完成;3) 巩固已有成果后再推进。最终代码实现了输入验证、单位转换和价格计算,并保留两位小数。总结指出,在AI时代,人类负责明确目标、拆分任务和确认结果,AI则负责生成代码、解释含义和提供优化建议,编程不会被取代,而是会更广泛地融入各领域。
85 28
|
1月前
|
机器学习/深度学习 数据可视化 TensorFlow
Python 高级编程与实战:深入理解数据科学与机器学习
本文深入探讨了Python在数据科学与机器学习中的应用,介绍了pandas、numpy、matplotlib等数据科学工具,以及scikit-learn、tensorflow、keras等机器学习库。通过实战项目,如数据可视化和鸢尾花数据集分类,帮助读者掌握这些技术。最后提供了进一步学习资源,助力提升Python编程技能。
|
1月前
|
Python
[oeasy]python074_ai辅助编程_水果程序_fruits_apple_banana_加法_python之禅
本文回顾了从模块导入变量和函数的方法,并通过一个求和程序实例,讲解了Python中输入处理、类型转换及异常处理的应用。重点分析了“明了胜于晦涩”(Explicit is better than implicit)的Python之禅理念,强调代码应清晰明确。最后总结了加法运算程序的实现过程,并预告后续内容将深入探讨变量类型的隐式与显式问题。附有相关资源链接供进一步学习。
39 4
|
1月前
|
设计模式 机器学习/深度学习 前端开发
Python 高级编程与实战:深入理解设计模式与软件架构
本文深入探讨了Python中的设计模式与软件架构,涵盖单例、工厂、观察者模式及MVC、微服务架构,并通过实战项目如插件系统和Web应用帮助读者掌握这些技术。文章提供了代码示例,便于理解和实践。最后推荐了进一步学习的资源,助力提升Python编程技能。

热门文章

最新文章

下一篇
oss创建bucket