CV中常用的数据集

简介:

介绍一些深度学习中CV方面的一些常用的数据集:
(一)mnist手写字体数据集:
images

mnist数据是由Google实验室的Corinna Cortes和纽约大学柯朗研究所的YannLeCun建立的一个手写字体数据集,其中训练集包含60000训练的手写数字图片,测试集包含10000张图片,一个训练集的标签集,一个测试集的标签集。
官方地址:
http://yann.lecun.com/exdb/mnist/
数据集中图片为单通道,大小为28X28像素
训练集train-images.idx3-ubyte,文件大小47040016B,47040016=60000X28X28+16,
测试集t10k-images.idx3-ubyte,文件大小7840016B,7840016=10000X28X28+16,
其中图片数据集多出16字节为:
magic number = 0x00000803
Imagenumber = 0x0000ea60/60000 0x00002710/10000
Imageheight = 28
Imagewidth=28
标签文件中多出8个字节为magic number = 0x00000801 和image_number
这个数据集基本上已经被用烂了,基本上每一个学习的框架都会带有含mnist数据集的example,基本上正确率都能达到98%+,适合初学者上手。

2cifar-10数据集
1

cifar-10的姊妹数据集cifar-100
cifar-·10数据集由Alex Krizhevsky,Vinod Nair和Geoffrey Hinton收集,数据集包含6万张32X32的彩色图片,共分为10中类型,包含了5万张训练图片和1万张测试图片,10类图片分别为ariplane,automobile,bird,cat,deer,dog,frog,horse,ship,truck,其中不同的对象类间完全互斥。汽车和卡车类没有重叠。“Automobile”只包含sedans,SUVs等等。“Truck”只包含大卡车。两者都不包含皮卡车。
官方地址:
http://www.cs.toronto.edu/~kriz/cifar.html
cifar-100数据集是cifar-10数据集的升级版本,由60000张大小为32X32的三通道彩色图像组成,分为20大类;每个大类又包含5个小类,总共100个小类,每个小类包含600张图像,其中500张用于训练,100张用于测试。

3ImageNet数据集
cnntsne_jpeg

ImageNet数据集中有1400万幅图像,涵盖了2万多个类别;其中有超过百万的图片有明确的类别标注和图像中物体位置的标注,具体信息如下:
1)Total number of non-empty synsets: 21841
2)Total number of images: 14,197,122
3)Number of images with bounding box annotations: 1,034,908
4)Number of synsets with SIFT features: 1000
5)Number of images with SIFT features: 1.2 million
与Imagenet数据集对应的是一个国际性的比赛——ImageNet国际计算机视觉挑战赛(ILSVRC,ImageNet Large Scale Visual Recognition Competition)
数据集大小:~1TB(ILSVRC2016比赛全部数据)
下载地址:
http://www.image-net.org/about-stats
其中有个1000类的分类问题,训练数据集有126万张图像,验证集5万张,测试集10万张,评价标准采用top-5错误率,即对一张图像进行5个类别的预测,只要其中一个和人工标注的类别相同则就算对了,否则算错。

4COCO数据集
coco_examples
COCO(Common Objects in Context)是一个新的图像识别、分割和图像语义数据集,包含以下特点:
1)Object segmentation
2)Recognition in Context
3)Multiple objects per image
4)More than 300,000 images
5)More than 2 Million instances
6)80 object categories
7)5 captions per image
8)Keypoints on 100,000 people
这个数据集以scene understanding为目标,主要从复杂的日常场景中截取,图像中的目标通过精确的segmentation进行位置的标定。图像包括91类目标,328,000图像和2,500,000个label。
一共有20G左右的图片和500M左右的标签文件
官网:
http://cocodataset.org/
关于COCO数据集的paper:
http://arxiv.org/abs/1405.0312
5 PASCAL VOC
这里写图片描述
PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集包括20个目录:人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。PASCAL VOC挑战赛在2012年后便不再举办,但其数据集图像质量好,标注完备,非常适合用来测试算法性能。
其中:
所有的标注图片都有Detection需要的label, 但只有部分数据有Segmentation Label。
VOC2007中包含9963张标注过的图片, 由train/val/test三部分组成, 共标注出24,640个物体。
VOC2007的test数据label已经公布, 之后的没有公布(只有图片,没有label)。
对于检测任务,VOC2012的trainval/test包含08-11年的所有对应图片。 trainval有11540张图片共27450个物体。
对于分割任务, VOC2012的trainval包含07-11年的所有对应图片, test只包含08-11。trainval有 2913张图片共6929个物体。
PASCAL VOC数据集下载:
https://pjreddie.com/projects/pascal-voc-dataset-mirror/

6OpenImage数据集
OpenImage,由谷歌实验室出品,包含900 万张的链接图像(基本来自 flickr),横跨了大约 6000 个类别,这些标签比 ImageNet(1000 类) 包含更多贴近实际生活的实体。这么大量的图像数据,足够保证从头训练一个深度网络模型。
数据集的 Github 地址为:https://github.com/openimages/dataset
博客对数据集进行了详细的介绍:
http://blog.csdn.net/u010167269/article/details/52717394
7行人数据集:
MIT数据集:
该数据库为较早公开的行人数据库,共924张行人图片(ppm格式,宽高为64x128),肩到脚的距离约80象素。该数据库只含正面和背面两个视角,无负样本,未区分训练集和测试集。Dalal等采用“HOG+SVM”,在该数据库上的检测准确率接近100%。
timg1

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络(CNN): 从理论到实践
本文将深入浅出地介绍卷积神经网络(CNN)的工作原理,并带领读者通过一个简单的图像分类项目,实现从理论到代码的转变。我们将探索CNN如何识别和处理图像数据,并通过实例展示如何训练一个有效的CNN模型。无论你是深度学习领域的新手还是希望扩展你的技术栈,这篇文章都将为你提供宝贵的知识和技能。
1104 7
|
9月前
|
边缘计算 弹性计算 人工智能
魔搭社区大模型一键部署到阿里云边缘云(ENS)
随着大模型技术的快速发展,业界的关注点正逐步从模型训练往模型推理 转变。这一转变不仅反映了大模型在实际业务中的广泛应用需求,也体现了技术优化和工程化落地的趋势。
988 7
|
机器学习/深度学习 人工智能 机器人
NeurIPS 2024:机器人操纵世界模型来了,成功率超过谷歌RT-1 26.6%
PIVOT-R是一种新型世界模型,专注于预测与任务相关的路点,以提高语言引导的机器人操作的性能和效率。该模型由路点感知世界模型(WAWM)和轻量级动作预测模块组成,辅以异步分层执行器(AHE),在SeaWave基准测试中表现优异,平均相对改进达19.45%,执行效率提高28倍。
316 26
|
Web App开发 JavaScript 前端开发
2024年纯前端VUE在线编辑微软Office/金山WPS的Word/Excel文档
现在,随着数字化进程渗透到到各行各业,数据安全已经成为了数字化革命中的重要组成部分,而在线Office成在OA、ERP、文档系统中得到了广泛的应用,为我国的信息化事业也做出了巨大贡献。随着操作系统、浏览器及Office软件的不断升级和更新换代,加上国家对信息化、数字化系统要求的不断提升,一些厂家的WebOffice控件产品不断被淘汰出局,而现存的几个产品也存在以下几个问题:
1546 91
2024年纯前端VUE在线编辑微软Office/金山WPS的Word/Excel文档
|
机器学习/深度学习 自然语言处理 PyTorch
【机器学习】探索LSTM:深度学习领域的强大时间序列处理能力
【机器学习】探索LSTM:深度学习领域的强大时间序列处理能力
|
数据挖掘
r语言数据分析画数据相关性图热力图
r语言数据分析画数据相关性图热力图
569 1
|
API vr&ar Python
Python 用ARIMA、GARCH模型预测分析股票市场收益率时间序列(上)
Python 用ARIMA、GARCH模型预测分析股票市场收益率时间序列
|
Web App开发 定位技术
Chrome中实现使用迅雷一次性选中并下载网页内全部链接的方法
Chrome中实现使用迅雷一次性选中并下载网页内全部链接的方法
505 1
|
运维 5G
瑜亮之争有结果了,6GHz(6425-7125MHz)全部或部分频段划分用于IMT系统
6GHz(6425-7125MHz)全部或部分频段划分用于IMT系统,对Wi-Fi 产生重大影响
1459 1
|
消息中间件 Kafka Shell
Docker安装kafka
Docker安装kafka
4302 0

热门文章

最新文章