深度学习常用数据集汇总

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 深度学习常用数据集汇总

计算机视觉


1.MNIST


6dcb50b6465c4f7797b16e830874e35f.png

深度学习领域的入门数据集,当前主流的深度学习框架几乎都将MNIST数据集的处理入门第一教程。MNIST是一个手写数字数据库,它有60000个训练样本集和10000个测试样本集,每个样本图像的宽高为28*28,数字放在一个归一化的、固定尺寸的图片的中心

数据集大小:~12MB


下载地址


http://yann.lecun.com/exdb/mnist/index.html


2.ImageNet


f83f51572fb64c19bbb955d4fafd1cec.png


Imagenet数据集是目前深度学习图像领域应用得非常多的一个领域,关于图像分类、定位、检测等研究工作大多基于此数据集展开。Imagenet数据集文档详细,有专门的团队维护,使用非常方便,在计算机视觉领域研究论文中应用非常广,几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。

Imagenet数据集有1400多万幅图片,涵盖2万多个类别;其中有超过百万的图片有明确的类别标注和图像中物体位置的标注。

数据集大小:~1TB


下载地址


http://www.image-net.org/about-stats


3.CIFAR

7ba9483b3b07417f8e856bde2e2795e7.png


CIFAR-10包含10个类别,50,000个训练图像,彩色图像大小:32x32,10,000个测试图像。CIFAR-100则是包含100个类,每类有600张图片,其中500张用于训练,100张用于测试;这100个类分组成20个超类。图像类别均有明确标注。CIFAR对于图像分类算法测试来说是一个非常不错的中小规模数据集,虽然用得人比以前少了很多,但仍然能用它做有趣的合理性测试。

数据集大小:~170MB


下载地址


http://www.cs.toronto.edu/~kriz/cifar.html


4.COCO


93f884bd63414cd6b8dd5ec374a039ce.png


COCO数据集由微软赞助,其对于图像的标注信息不仅有类别、位置信息,还有对图像的语义文本描述,COCO数据集的开源使得近两三年来图像分割语义理解取得了巨大的进展,也几乎成为了图像语义理解算法性能评价的“标准”数据集。

数据集大小:~40GB


下载地址

http://mscoco.org/


5.PASCAL VOC


2e1595aeb17f475c80dea123827a9f3a.png


PASCAL VOC图片集包括20个目录:人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。

数据集大小:~2GB


下载地址

http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html


6.FDDB

013a186e86834ca9a76c01ee54af553b.png


FDDB是全世界最具权威的人脸检测评测平台之一,包含2845张图片,共有5171个人脸作为测试集。测试集范围包括:不同姿势、不同分辨率、旋转和遮挡等图片,同时包括灰度图和彩色图,标准的人脸标注区域为椭圆形。该数据集的图片来自于美联社和路透社新闻报道图片,并删除了重复图片。

数据集大小:~550MB


下载地址

http://vis-www.cs.umass.edu/fddb/

自然语言处理


数据集


1.SQuAD


斯坦福问答回答数据集(SQuAD)是一个新的阅读理解数据集,从维基百科中提炼出的问题组成,每个问题的答案都是相应段落的一段文本。在500多篇文章中有超过10万个问答对。

推荐度:★★★

推荐应用方向:文本挖掘、自然语言理解、智能问答


介绍和下载地址


https://rajpurkar.github.io/SQuAD-explorer/


2.MS MARCO


MS MARCO是一种新的大规模阅读理解和问答数据集。在MS MARCO中,所有问题都是从真正的匿名用户查询中抽取的。使用先进的Bing搜索引擎版本,从实际的Web文档中提取数据集中的答案的上下文段落。

推荐度:★★★

推荐应用方向:自然语言理解、智能问答


介绍和下载地址

http://www.msmarco.org/


3.Question Pairs


第一个来源于Quora 的包含重复/语义相似性标签的数据集。数据集由超过40万行的潜在问题的问答组成。每行数据包含问题ID、问题全文以及指示该行是否真正包含重复对的二进制值。

推荐度:★★★

推荐应用方向:自然语言理解、智能问答


介绍和下载地址


https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs


4.Maluuba Datasets


这是一个用于自然语言理解研究的复杂的人工数据集,主要包括NewsQA和Frames。它主要用于机器阅读理解、面向对象的对话系统、对话界面和加强学习。

推荐度:★★

推荐应用方向:自然语言理解、智能问答


介绍和下载地址

https://datasets.maluuba.com/


5.Maluuba NewsQA


Maluuba的NewsQA数据集的目的是帮助研究团队建立能够回答需要人为理解和推理技能的问题的算法。它包含了从DeepMind问答数据集中的CNN文章中抽取了120K个常见问题。

推荐度:★★

推荐应用方向:文本挖掘、自然语言理解、智能问答


介绍地址

https://datasets.maluuba.com/NewsQA

下载地址

https://github.com/Maluuba/newsqa


6.20 Newsgroups


该数据集包含大约20000个新闻组文档,在20个不同的新闻组中平均分配,是一个文本分类的经典数据集,它是机器学习技术的文本应用中的实验的流行数据集,如文本分类和文本聚类。

推荐度:★★

推荐应用方向:文本挖掘


介绍和下载地址


http://qwone.com/~jason/20Newsgroups/


7.Billion Word Language Model Benchmark


这是一个大型、通用的语言建模数据集,该项目的目的是提供语言建模实验的标准培训和测试,常用于如 word2vec 或 Glove 的分布式词语表征。

推荐度:★★

推荐应用方向:文本挖掘、自然语言理解


介绍和下载地址

http://www.statmt.org/lm-benchmark/

Common Crawl

Common Crawl包含了超过7年的网络爬虫数据集,拥有PB级规模,常用于学习词嵌入。

推荐度:★★

推荐应用方向:文本挖掘、自然语言理解

介绍和下载地址


http://commoncrawl.org/the-data/


数据平台


1.数据堂


数据堂是国内比较大的大数据交易平台,该平台上的许多数据覆盖面很广,但是要收费,可根据需要再评估有多少成本可以用于交易数据。


网址


http://www.datatang.com/


2.搜狗实验室


搜狗实验室是比较权威的数据提供方提供的数据质量很高,而且数据是免费的,提供了多种类型,值得尝试。


网址


http://www.sogou.com/labs/


3.自然语言处理与信息检索共享平台


这是中科大的信息平台,在上面有一些自然语言相关的数据集可供下载。


网址


http://www.nlpir.org/?action-category-catid-28


语言识别

1.TIMIT


这是一份英文语音识别数据集,包含630个扬声器的宽带录音,八个主要方言的美式英语,每个阅读十个语音丰富的句子。TIMIT语料库包括时间对齐的正字法,语音和单词转录以及每个话语的16位,16kHz语音波形文件。

推荐度:★★★

推荐应用方向:语音识别



介绍和下载地址


https://catalog.ldc.upenn.edu/LDC93S1


2.TED-LIUM


这是TED Talk 的音频数据集,包含1495个录音和音频会议、159848条发音词典和部分WMT12公开的语料库。

推荐度:★★★

推荐应用方向:语音识别


介绍和下载地址

http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus


3.大型音乐分析数据集FMA


该数据集是免费音乐存档(FMA)的转储,这是一个高质量的合法音频下载的互动库。这些数据集中包含歌曲名称、音乐类型、曲目计数等信息,共计689种歌曲和68种类型。该数据集可用于音乐分析。

推荐度:★★★

推荐应用方向:音乐分析挖掘


介绍和下载地址

https://lts2.epfl.ch/datasets/fma/


4.CHIME


这份语音一份包含环境噪音的用于语音识别挑战赛(CHiME Speech Separation and Recognition Challenge)的数据集。该数据集包含了训练集、开发机、测试集三部分,每份里面包括了多个扬声器在不同噪音环境下的数据。

推荐度:★★★

推荐应用方向:语音识别


介绍和下载地址


http://spandh.dcs.shef.ac.uk/chime_challenge/index.html


5.LibriSpeech


该数据集为包含文本和语音的有声读物数据集,由Vassil Panayotov编写的大约1000小时的16kHz读取英语演讲的语料库。数据来源于LibriVox项目的阅读有声读物,并经过细致的细分和一致。

推荐度:★★

推荐应用方向:自然语音理解和分析挖掘


介绍和下载地址

http://www.openslr.org/12/


6.2000 HUB5 English Evaluation Transcripts


该数据集由NIST(国家标准与技术研究院)2000年发起的HUB5评估中使用的40个英语电话对话的成绩单组成,其仅包含英语的语音数据集。

推荐度:★★★

推荐应用方向:音乐、人声、车辆、乐器、室内等自然和人物声音识别


介绍和下载地址


https://catalog.ldc.upenn.edu/LDC2002T43


7.VoxForge


该数据集是带口音的语音清洁数据集,对测试模型在不同重音或语调下的鲁棒性非常有用。

推荐度:★★

推荐应用方向:语音识别

介绍和下载地址


http://www.voxforge.org/


8.音频数据集AudioSet


谷歌发布的大规模一品数据集,AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的 2084320 个人类标记的10秒声音剪辑的集合。类目被指定为事件类别的分层图,覆盖广泛的人类和动物声音,乐器和风格以及常见的日常环境声音。

推荐度:★★★

推荐应用方向:音乐、人声、车辆、乐器、室内等自然和人物声音分析挖掘



介绍和下载地址

https://github.com/audioset/ontology


视频数据


1.谷歌YouTube-8M


YouTube-8M一个大型的多样性标注的视频数据集,目前拥有700万的YouTube视频链接、45万小时视频时长、3.2亿视频/音频特征、4716个分类、平均每个视频拥有3个标签。

推荐度:★★★

推荐应用方向:视频理解、表示学习(representation learning)、嘈杂数据建模、转移学习(transferlearning)和视频域适配方法(domain adaptation approaches)


介绍和下载地址


https://research.google.com/youtube8m/


2.牛津RobotCar视频数据集


RobotCar数据集包含时间范围超过1年,测试超过100次的相同路线的驾驶数据。数据集采集了天气、交通、行人、建筑和道路施工等不同组合的数据。

推荐度:★★★

推荐应用方向:自动驾驶


介绍和下载地址

http://robotcar-dataset.robots.ox.ac.uk/


3.Udacity开源的自然场景短视频数据集


数据集大概为9T,由3500万个视频剪辑组成,每个视频为短视频(32帧),大约1秒左右的时长。

推荐度:★★★

推荐应用方向:目标跟踪、视频目标识别


介绍和下载地址


http://web.mit.edu/vondrick/tinyvideo/#data


4.Udacity开源的车辆行使视频数据集


数据集大概有223G,主要是有关车辆驾驶的数据,其中除了车辆拍摄的图像以外,还包括车辆本身的属性和参数信息,例如经纬度、制动器、油门、转向度、转速等。这些数据可用于车辆自动驾驶方向的模型训练和学习。

推荐度:★★★

推荐应用方向:自动驾驶


介绍和下载地址

https://github.com/udacity/self-driving-car


综合数据集


1.斯坦福网络数据集


斯坦福网络分析平台是一种用于分析和操纵大型网络的通用高性能系统,其本身使用的网络相关数据也对外开放,包括设计、社区、通信、网络图、互联网、道路、维基百度网络、在线社区和评论等不同主题,可用于分析大型社会和信息网络方面的研究成果。

推荐度:★★★

推荐应用方向:神经网络


介绍和下载地址

http://snap.stanford.edu/data/index.html


2.雅虎Webscope


雅虎Webscope用于为学者和其他科学家在非商业用途中使用。所有数据集已经过审查,以符合雅虎的数据保护标准,包括严格的隐私控制。数据集中包含了多个主题数据集:广告和市场营销、自然语言数据、科学数据、图形和社会化数据、图像数据等7个主题。需要注意的是:数据集只适用于同意数据共享协议的教师和大学研究人员的在学术上使用。

推荐度:★★★

推荐应用方向:监督式、非监督式机器学习、深度学习、自然语言理解等


介绍和下载地址


https://webscope.sandbox.yahoo.com/


3.AWS公开数据集


亚马逊提供的数据集涵盖气候、红外图像、卫星遥感、人类微生物、日本人口普查、公共电子邮件档案、歌曲、材料安全、谷歌图书语料库、石油等非常多的主题数据,并且这些数据可直接集成到AWS进行数据挖掘和学习。

推荐度:★★★

推荐应用方向:监督式、非监督式机器学习、深度学习、神经网络、自然语言理解等


介绍和下载地址


https://aws.amazon.com/cn/datasets/


4.UCI数据集


UCI数据集中包括了众多用于监督式和非监督式学习的数据集,数量大概400多个,其中很多数据集在其他众多数据工具中被反复引用,例如Iris、Wine、Adult、Car Evaluation、Forest Fires等。

每个数据集中都有关于数据实例数、数据产生领域、值域分布、特征数量、数据产生时间、模型方向、是否有缺失值等详细数据介绍,可用于分类、回归、聚类、时间序列、推荐系统等。

推荐度:★★★

推荐应用方向:监督式、非监督式机器学习,数据挖掘


介绍和下载地址

http://archive.ics.uci.edu/ml/


5.UCI KDD数据集


UCI KDD(知识发现)是数据挖掘和可视化的研究项目,专注于大型数据收集中的实体事件关系。它是涉及几所大学的更广泛的KDD项目的一部分,UCI始于2002年10月。

推荐度:★★

推荐应用方向:监督式、非监督式机器学习


介绍地址

http://kdd.ics.uci.edu/

下载地址

http://kdd.ics.uci.edu/databases/


6.KONECT数据集


KONECT数据集是一个大型网络数据集的项目,在科布伦茨-兰道大学网络科学与技术研究所的网络科学和相关领域进行研究。KONECT包含数百种各种类型的网络数据集,包括有向、无向、二分、加权、未加权、签名和评级的网络。 KONECT的网络覆盖了许多不同领域,如社交网络,超链接网络、作者网络、物理网络、交互网络和通信网络等。

推荐度:★★★

推荐应用方向:神经网络


介绍和下载地址

http://konect.uni-koblenz.de/

相关文章
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
深度学习实践:构建并训练卷积神经网络(CNN)对CIFAR-10数据集进行分类
本文详细介绍如何使用PyTorch构建并训练卷积神经网络(CNN)对CIFAR-10数据集进行图像分类。从数据预处理、模型定义到训练过程及结果可视化,文章全面展示了深度学习项目的全流程。通过实际操作,读者可以深入了解CNN在图像分类任务中的应用,并掌握PyTorch的基本使用方法。希望本文为您的深度学习项目提供有价值的参考与启示。
|
4月前
|
机器学习/深度学习 JavaScript 前端开发
深度学习必备:对数据集的拆分、根据拆分图片拆分labels、对全部标注标签进行区间检查
使用JavaScript代码或浏览器扩展可以一次性在浏览器中打开多个相同的标签页。
|
6月前
|
机器学习/深度学习 算法 安全
基于YOLOv8深度学习的危险区域人员闯入检测与报警系统【python源码+Pyqt5界面+数据集+训练代码】YOLOv8、ByteTrack、目标追踪、区域闯入
基于YOLOv8深度学习的危险区域人员闯入检测与报警系统【python源码+Pyqt5界面+数据集+训练代码】YOLOv8、ByteTrack、目标追踪、区域闯入
|
6月前
|
机器学习/深度学习 存储 算法
基于YOLOv8与ByteTrack的车辆行人多目标检测与追踪系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标追踪、运动物体追踪
基于YOLOv8与ByteTrack的车辆行人多目标检测与追踪系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标追踪、运动物体追踪
|
6月前
|
机器学习/深度学习 存储 计算机视觉
基于YOLOv8深度学习的PCB板缺陷检测系统【python源码+Pyqt5界面+数据集+训练代码】目标检测
基于YOLOv8深度学习的PCB板缺陷检测系统【python源码+Pyqt5界面+数据集+训练代码】目标检测
|
6月前
|
机器学习/深度学习 存储 编解码
基于YOLOv8与ByteTrack的车辆检测追踪与流量计数系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标追踪、车辆检测追踪、过线计数、流量统计(2)
基于YOLOv8与ByteTrack的车辆检测追踪与流量计数系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标追踪、车辆检测追踪、过线计数、流量统计
|
6月前
|
机器学习/深度学习 存储 安全
基于YOLOv8深度学习的行人跌倒检测系统【python源码+Pyqt5界面+数据集+训练代码】目标检测
基于YOLOv8深度学习的行人跌倒检测系统【python源码+Pyqt5界面+数据集+训练代码】目标检测
|
6月前
|
机器学习/深度学习 存储 监控
基于YOLOv8深度学习的无人机视角高精度太阳能电池板检测与分析系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标分割
基于YOLOv8深度学习的无人机视角高精度太阳能电池板检测与分析系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标分割
|
6月前
|
机器学习/深度学习 存储 监控
基于YOLOv8深度学习的高压输电线绝缘子缺陷智能检测系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标检测
基于YOLOv8深度学习的高压输电线绝缘子缺陷智能检测系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标检测
|
6月前
|
机器学习/深度学习 计算机视觉 Python
深度学习实战】行人检测追踪与双向流量计数系统【python源码+Pyqt5界面+数据集+训练代码】YOLOv8、ByteTrack、目标追踪、双向计数、行人检测追踪、过线计数(3)
深度学习实战】行人检测追踪与双向流量计数系统【python源码+Pyqt5界面+数据集+训练代码】YOLOv8、ByteTrack、目标追踪、双向计数、行人检测追踪、过线计数