目标检测VOC数据集根据标注文件生成txt文件

简介: 目标检测VOC数据集根据标注文件生成txt文件

Pascal VOC数据集介绍:

└── data   #数据集名字
        ├── Annotations           # 存放xml标注文件,与JPEGImages中的图片一一对应
        ├── ImageSets             # 该目录下存放的都是txt文件,txt文件中每一行包含一个图片的名称
        │   ├── Main              # 存放的是图像物体识别的数据,分为20类
        │       └── trainval.txt  # train与val的合集
        │       └── test.txt      # 用于测试的图片名称
        ├── JPEGImages            # 存放源图片

根据Annotations里面的xml标注文件,随机生成trainval.txt和test.txt,生成比例可自行调整。

# data_path为数据集路径,trainval_percent为训练验证集的比例
def get_txt(data_path,trainval_percent):
    print(data_path)
    xml_path = data_path+'/Annotations'
    print(xml_path)
    txt_path = data_path+'/ImageSets/Main'
    total_xml = os.listdir(xml_path)
    num = len(total_xml)
    list = range(num)
    tv = int(num * trainval_percent)
    trainval = random.sample(list, tv)
    ftrainval = open(os.path.join(txt_path+'/trainval.txt'), 'w')
    ftest = open(os.path.join(txt_path+'/test.txt'), 'w')
    for i in list:
        name = total_xml[i][:-4] + '\n'
        if i in trainval:
            ftrainval.write(name)
        else:
            ftest.write(name)
    ftrainval.close()
    ftest.close()


相关文章
|
并行计算 Linux 计算机视觉
还在手工标注数据集?快来试一试自动化多模型标注大模型-gui交互式标注(部署运行教程-高效生产力)
还在手工标注数据集?快来试一试自动化多模型标注大模型-gui交互式标注(部署运行教程-高效生产力)
|
机器学习/深度学习 数据处理 对象存储
阿里云机器学习平台PAI智能标注Quick Start
智能标注(iTAG)是一款智能化数据标注平台,支持图像、文本、视频、音频等多种数据类型的标注以及多模态的混合标注。智能标注(iTAG)提供了丰富的标注内容组件和题目组件,您可以直接使用平台预置的标注模板,也可以根据自己的场景自定义模板进行数据标注。本文以图片标注为例演示该功能的使用。
5940 1
阿里云机器学习平台PAI智能标注Quick Start
|
5月前
|
数据采集 人工智能 自然语言处理
DistillQwen-ThoughtY:通过变长思维链蒸馏,全面提升模型推理能力!
阿里云 PAI 团队基于 EasyDistill 框架,创新性地采用推理冗余度(RV)和认知难度(CD)双指标筛选机制,实现思维链与模型能力的精准匹配,发布新一代推理模型 DistillQwen-ThoughtY。相关模型和数据集已在 hugging face/ModelScope 等开源社区开放,配套 EasyDistill 框架支持高效知识蒸馏。近期内将推出 DistillQwen-ThoughtY 模型在 PAI-ModelGallery 的一键部署、训练和评测实践。
|
机器学习/深度学习 PyTorch 算法框架/工具
【YOLOv8改进 - 注意力机制】SimAM:轻量级注意力机制,解锁卷积神经网络新潜力
YOLO目标检测专栏介绍了SimAM,一种无参数的CNN注意力模块,基于神经科学理论优化能量函数,提升模型表现。SimAM通过计算3D注意力权重增强特征表示,无需额外参数。文章提供论文链接、Pytorch实现代码及详细配置,展示了如何在目标检测任务中应用该模块。
|
XML 机器学习/深度学习 数据可视化
目标检测笔记(六):如何通过界面化操作YOLOv5完成数据集的自动标注
这篇文章介绍了如何通过界面化操作YOLOv5来完成数据集的自动标注,包括修改源码、自动标注的前期准备、开始自动标注、可视化标注效果以及将XML文件转换为YOLO训练所需的TXT格式。
762 1
目标检测笔记(六):如何通过界面化操作YOLOv5完成数据集的自动标注
|
并行计算 PyTorch 算法框架/工具
yolov5训练太慢的解决方案
这篇文章讨论了YOLOv5训练速度慢的问题,并提供了解决方案,主要是由于没有安装CUDA和支持GPU的PyTorch版本,导致只有CPU在工作。文章建议安装CUDA和正确配置支持GPU的PyTorch以加速训练过程。
1109 1
yolov5训练太慢的解决方案
|
NoSQL 关系型数据库 BI
记录一次MySQL+Redis实现优化百万数据统计的方式
【10月更文挑战第13天】 在处理百万级数据的统计时,传统的单体数据库往往力不从心,这时结合使用MySQL和Redis可以显著提升性能。以下是一次实际优化案例的详细记录。
634 1
|
计算机视觉
【YOLOv10训练教程】如何使用YOLOv10训练自己的数据集并且推理使用
【YOLOv10训练教程】如何使用YOLOv10训练自己的数据集并且推理使用
|
机器学习/深度学习 数据采集
|
数据采集 物联网 API
LLM 大模型学习必知必会系列(五):数据预处理(Tokenizer分词器)、模板(Template)设计以及LLM技术选型
LLM 大模型学习必知必会系列(五):数据预处理(Tokenizer分词器)、模板(Template)设计以及LLM技术选型
LLM 大模型学习必知必会系列(五):数据预处理(Tokenizer分词器)、模板(Template)设计以及LLM技术选型