触类旁通——如何高效完成大型数据集的制作（以VOC数据集为例）

2022-06-09 264

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 触类旁通——如何高效完成大型数据集的制作（以VOC数据集为例）

前言

近期写了一些关于制作数据集的博客，在这里将系统性从逻辑结构构造角度出发进行数据集的制作，网络上关于VOC2COCO数据集的开源代码比比皆是，我门就以VOC数据集的制作为例子为大家介绍如何高效完成数据集的制作。

基于LabelImg进行数据集的制作我想这种方法应该是较为传统的制作数据集的方式，通过开源代码完成LabelImg搭建进行VOC数据集的制作。在这篇博客中我将为大家带来一种快速制作数据集的方式。

核心架构：

在步骤1中，我们读取摄像头是为了获取数据源；我们也可以通过读取文件夹下的图像作为获取数据源；

在步骤2中，主要是为了能够通过摄像头连接过程中能够持续性获取数据，如果大家是使用读取文件夹的方式的话可以选择剔除掉（如果不剔除的，可以选择一直往指定文件夹内灌数据）；

在步骤3中可以类比为读取图像数据了；

在步骤4中进行归一化，如果你使用的是通过摄像头获取的数据，可以不用归一化步骤；如果是使用读取文件夹内图像建议使用归一化，这样可以避免采集到的图像的像素大小不统一；

在步骤5中：这是关键的一步，在调用目标检测函数的时候，我们可以通过形态学自定义搭建检测函数、百度智能云或华为相关接口函数和开源目标检测函数进行完成（大家也自己自己做一个符合自己需要的目标检测函数，例如：fastrcnn\ssd\yolo）

在步骤6、7和7中的目标作用是筛选出当前获取到的图像是否含有目标，存在目标则计算目标在图像中的XY坐标区间，若没有则打印无目标提示

在步骤8、9、10中是为了存储存在目标画面，大家在对图像取名的时候可以采用UUID进行命名，整体可以等价为：图像全名 = 图像名称 + 图像格式 | （UUID.JPG = UUID + .JPG）

在步骤11和12：这是第二关键的一步，我们需要将检测到的信息按照如上所述那般赋值，填写进txt文档中；在给txt文档命名的时候需要将txt文档的名称命名的和图像的名一样 | (UUID.txt ~= UUID.JPG)

在对txt文档生成后大家可以使用开源代码：txt2xml生成VOC数据集。通过如上核心架构以及对架构的剖析，能够有清晰的思路，在大家需要解决大量数据集的时候能够触类旁通快速完成数据集的制作，在这里希望各位不会再为了数据集的制作而发愁！

我会例举几个项目至我的Github仓库中：kiven-yangming