Dataset之Pascal：Pascal竞赛及其Pascal VOC(VOC 2012、VOC 2007) 数据集的简介、下载、使用方法详细攻略（一）-阿里云开发者社区

Dataset之Pascal：Pascal竞赛及其Pascal VOC(VOC 2012、VOC 2007) 数据集的简介、下载、使用方法详细攻略（一）

2021-10-27 1493

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Dataset之Pascal：Pascal竞赛及其Pascal VOC(VOC 2012、VOC 2007) 数据集的简介、下载、使用方法详细攻略

Pascal 竞赛

1、PASCAL VOC竞赛任务

2、Pascal 竞赛的历史

3、Pascal VOC等类似大型官方数据集的由来

Pascal VOC 数据集的简介

1、VOC2007和VOC2012数据集

Pascal VOC 数据集的下载

Pascal VOC 数据集的使用方法

Pascal 竞赛

PASCAL：pattern analysis, statistical modelling and computational learning

VOC：visual object classes

Pascal 的全程是 Pattern Analysis, Statical Modeling and Computational Learning。

PASCAL VOC 挑战赛是视觉对象的分类识别和检测的一个基准测试，提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。从2005年至今，该组织每年都会提供一系列类别的、带标签的图片，挑战者通过设计各种精妙的算法，仅根据分析图片内容来将其分类，最终通过准确率、召回率、效率来一决高下。如今，挑战赛和其所使用的数据集已经成为了对象检测领域普遍接受的一种标准。更多的自述和背景故事可以参见这篇官方提供的说明文件。

官网地址：

http://pascallin.ecs.soton.ac.uk/challenges/VOC/

Visual Object Classes Challenge 2012 (VOC2012)

The PASCAL Visual Object Classes (VOC) Challenge

1、PASCAL VOC竞赛任务

1、PASCAL VOC的挑战任务

Classification/Detection Competitions

分类：对于每一个分类，判断该分类是否在测试照片上存在（共20类）;

检测：检测目标对象在待测试图片中的位置并给出边界框坐标（bounding box)

Segmentation Competition

分割：Object Segmentation

Action Classification Competition

人体动作识别（Action Classification)

ImageNet Large Scale Visual Recognition Competition

ImageNet大型视觉识别大赛

Person Layout Taster Competition

人体布局（Human Layout)

官网地址：http://host.robots.ox.ac.uk/pascal/VOC/

2、Pascal 竞赛的历史

起初Pascal 并不像现在这样完善和全面，刚开始委员会只提供了4个类别的图像，在2006年的时候增加到了10个类，2007年开始则增加到了20个类；同样是在2007年，加入了对人体轮廓布局（Person layout）的测试；测试图像的数量也由起初的1578张增加到了2007年高峰时期的9963张，随后的一年则出现了大幅下降，直到2010年图库数量重新达到高峰，并与2011年稳定在11530张；期间于2009年开始图库的构成发生了变化，这之前每年委员会都会重新制作图库，选择新的照片来构成新的数据集。而2009年开始则采用扩增的方式，只在原有图库的基础上加入新的图片；再有一点就是在2010年加入的动作识别项目和 Other 分类。

3、Pascal VOC等类似大型官方数据集的由来

计算机视觉里面很大一块是在做物体的识别、检测还有分类(object recognition, detection and classification)。几乎在每一个应用领域都需要用到这三项功能，所以能否顺利的完成这三个功能，对检验一个算法的正确性和效率来说是至关重要的。所以每一个算法的设计者都会运用自己搜集到的场景图片对算法进行训练和检测，这个过程就逐渐的形成了数据集（dataset）。

而不幸的是，这样形成的数据集存在着很大的偏向性。因为就算是作者可以的随机搜集图片，在筛选的时候也存在着作者对事物的主管判断，而这种判断在其他人眼中就会觉得不公平。同时为了比较不同的算法效率，设计者也会运用数据集来进行性能比较。所以如果你看的论文足够多的话，你会发现，大家的实验部分都会说：在某个数据集上我的算法是最牛X的；在某某数据集上我的算法和当前最牛X的其他地方差不多，但速度快/准确率高/误报率低；虽然我的算法在某数据集一般，但几个数据集做一下平均，我的最牛X……所以这些由算法设计者们创建的数据集并不是那么的有说服性。

Dataset之Pascal：Pascal竞赛及其Pascal VOC(VOC 2012、VOC 2007) 数据集的简介、下载、使用方法详细攻略（一）