自学深度学习,这些途径可以获取数据集

简介:

20个趣味数据集

在Medium上有位叫Oliver Cameron的程序猿小哥特地分享了20个有趣的数据集,比如UFO目击报告等。整理如下:


20 Newsgroups

从20个网络新闻组中收集的20000条文本数据,可用于文本分析、分类等。

文件大小:61.6 M

http://kdd.ics.uci.edu/databases/20newsgroups/20newsgroups.data.html



Amazon Reviews

从亚马逊网站上获取的多达1亿4千2百万条顾客的购物评论,可用于情感分析、推荐系统研究等等。

文件大小:20G

http://jmcauley.ucsd.edu/data/amazon/



Football Strategy

包含数千个足球的踢球场景,用于帮足球教练做出最优决策。

文件大小:876 KB

https://link.zhihu.com/?target=https%3A//www.crowdflower.com/wp-content/uploads/2016/03/Football-Scenarios-DFE-832307.csv



Horses for Courses

赛马数据,用于预测赛马结果。

文件大小:19 M

https://www.kaggle.com/lukebyrne/horses-for-courses



Human Activity Recognition with Smartphones

识别人类日常活动比如走路、坐下等的感应数据。

文件大小:25 M

https://www.kaggle.com/uciml/human-activity-recognition-with-smartphones


Labeled Faces in the Wild

1万3千张附有人物名字的人脸照片,可用于人脸识别训练、多远训练,也可作为测试集。

文件大小:173 M

http://vis-www.cs.umass.edu/lfw/



National Survey on Drug Use and Health

根据健康调查问题预测药物使用状况。

文件大小:2 G

http://www.icpsr.umich.edu/icpsrweb/ICPSR/studies/34933



NORB 3D Object Recognition

50个玩具雕塑的立体图像数据集,可用于图像中的3D物体识别。

文件大小:包含多个文件,约5G

https://cs.nyu.edu/~ylclab/data/norb-v1.0/



One Million Songs

1百万首歌曲的音频特征及元数据的数据集,可用于音频识别与分类。

文件大小:1.8 G

https://labrosa.ee.columbia.edu/millionsong/



SMS Spam Collection

收集了5574份SMS文本数据,部分是正常内容,部分是垃圾内容,可用于训练垃圾过滤系统。

文件大小:204 KB

http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/


Hate Speech Identification

收集的推特推文样本,已经根据是否具有攻击性和包含仇恨内容进行了判断,可用于训练社交网络内容审核。

文件大小:2.66 M

下载地址:https://www.crowdflower.com/wp-content/uploads/2016/03/twitter-hate-speech-classifier-DFE-a845520.csv


Hidden Beauty of Flickr Pictures

1万5千个Flikr照片ID,均以按照美观度进行了分级,可用于图像分析。

文件大小:138 KB,需使用Flikr API获取照片。

http://www.di.unito.it/~schifane/dataset/beauty-icwsm15/



Yahoo Instant Messenger Friends Connectivity Graph

雅虎用户之间使用雅虎Messenger相互之间联系和交流的数据,可用于识别重要的社交联系和社交中有影响力的人。

文件大小:28 M

http://webscope.sandbox.yahoo.com/catalog.php?datatype=g


Record of Heart Sound

正常心跳和不正常心跳的数据,用于识别心脏杂音、预测心脏病等。

文件大小:47.7 M

http://mldata.org/repository/data/viewslug/record-of-heart-sound/



Banknote Dataset

根据给定钞票的数个度量的照片预测是真钞还是假钞。它是一个二元分类问题。每个类的观测值数量不均等。一共有 1372 个观察值,4个输入变量和1个输出变量。

文件大小:45 KB

http://archive.ics.uci.edu/ml/datasets/banknote+authentication



Wine Quality

白葡萄酒和红葡萄酒的化学属性和酒的品质,用于酒的分类问题。

文件大小:共3个文件,343KB

http://archive.ics.uci.edu/ml/datasets/Wine+Quality



Mushroom Identification

根据蘑菇的特点进行假设性地分类蘑菇属于有毒还是可食用。

文件大小:共3个文件,480 KB

http://archive.ics.uci.edu/ml/datasets/Mushroom



UFO Reports

一共8万份历史上的UFO事件报告,可用于UFO事件的分类和回归分析。该数据集以经过标准化处理。

文件大小:14.6 M

https://github.com/planetsig/ufo-reports



Militarized Interstate Disputes

过去200年世界各地冲突和威胁的数据集,包括军事行动、伤亡状况、敌对程度和冲突结果等,可用于地区冲突事件的建模与分析。

文件大小:962 KB

http://www.correlatesofwar.org/data-sets/MIDs



NBA & MLB Stats

过去十几年各个赛季NBA和MLB各大球队与球员的状态(截止到2017年),可用于NBA及超级碗大型赛事的预测。

文件大小:包含多个数据集

http://www.dougstats.com/



俗话说授人以鱼不如授人以渔嘛。看完这20个数据集后,我们再说一些发现数据集的好去处。不然等这20个数据集用完你肯定就把我忘了..


640?wx_fmt=jpeg


去哪里找高质量数据集?


在进行机器学习项目时,都希望能从数据集中的一些列预测出另一列,为了能做到这点,我们需要确保:

  • 数据集不能太混乱——如果太混乱,我们需要花费大量时间清理数据。

  • 要有个有趣的目标列作为预测目标。

  • 其它变量对目标列有一定的解释力。


幸好,网上有一些专为机器学习准备的数据集,都预先经过了清理,能很快用来测试算法。我们可以去这些地方获取这样的干净数据集:


1. Kaggle

Kaggle是一个举办机器学习比赛的数据科学社区,网站上有很多有意思的数据集。可以通过参加Kaggle机器学习比赛来下载相关数据集。


Kaggle数据集地址:

https://www.kaggle.com/datasets

这里是Kaggle上举办的一些机器学习比赛:

https://www.kaggle.com/competitions


2. UCI Machine Learning Repository

UCI Machine Learning Repository可以说是互联网上资历最老的数据集来源之一,上面包含了各种各样的数据集,而且绝大部分数据集都很干净,可以直接应用于机器学习项目。无需注册就可下载:

http://mlr.cs.umass.edu/ml/datasets.html

3. Quandl

Quandl是一个专门针对经济学和金融学领域的数据集资源库,部分可免费下载,部分需要付费。对于预测经济指标和股票等这样的机器学习项目,Quandl上的数据集是很适合的资源:https://www.quandl.com/search


4. Socrata OpenData

Socrata OpenData包含很多干净的数据集,可以直接在浏览器上使用,也可以下载下来,主要是用作数据分析。

https://opendata.socrata.com/


此外,如果你对数据集的质量要求不是很严格,一些科技公司推出的数据集也是不错的资源:


亚马逊公共数据集:

https://aws.amazon.com/cn/datasets/?_encoding=UTF8&jiveRedirect=1



谷歌公共数据集:

https://cloud.google.com/bigquery/public-data/


BuzzFeed数据集:

https://github.com/BuzzFeedNews


最后推出一个重磅资源,大神 Antoine Miech 将 27 个视频数据集整合在了一起,包含人类手势、动作识别等十几个类型,基本上你想用的视频数据集都能在这里找到:

https://www.di.ens.fr/~miech/datasetviz/


转自: http://blog.csdn.net/tkkzc3E6s4Ou4/article/details/79032371
目录
相关文章
|
机器学习/深度学习 编解码 人工智能
人脸表情[七种表情]数据集(15500张图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
本数据集包含15,500张已划分、已标注的人脸表情图像,覆盖惊讶、恐惧、厌恶、高兴、悲伤、愤怒和中性七类表情,适用于YOLO系列等深度学习模型的分类与检测任务。数据集结构清晰,分为训练集与测试集,支持多种标注格式转换,适用于人机交互、心理健康、驾驶监测等多个领域。
|
6月前
|
机器学习/深度学习 人工智能 文字识别
中药材图像识别数据集(100类,9200张)|适用于YOLO系列深度学习分类检测任务
本数据集包含9200张中药材图像,覆盖100种常见品类,已标注并划分为训练集与验证集,支持YOLO等深度学习模型。适用于中药分类、目标检测、AI辅助识别及教学应用,助力中医药智能化发展。
|
8月前
|
机器学习/深度学习 人工智能 监控
河道塑料瓶识别标准数据集 | 科研与项目必备(图片已划分、已标注)| 适用于YOLO系列深度学习分类检测任务【数据集分享】
随着城市化进程加快和塑料制品使用量增加,河道中的塑料垃圾问题日益严重。塑料瓶作为河道漂浮垃圾的主要类型,不仅破坏水体景观,还威胁水生生态系统的健康。传统的人工巡查方式效率低、成本高,难以满足实时监控与治理的需求。
|
8月前
|
机器学习/深度学习 传感器 人工智能
火灾火焰识别数据集(2200张图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
在人工智能和计算机视觉的快速发展中,火灾检测与火焰识别逐渐成为智慧城市、公共安全和智能监控的重要研究方向。一个高质量的数据集往往是推动相关研究的核心基础。本文将详细介绍一个火灾火焰识别数据集,该数据集共包含 2200 张图片,并已按照 训练集(train)、验证集(val)、测试集(test) 划分,同时配有对应的标注文件,方便研究者快速上手模型训练与评估。
2536 10
火灾火焰识别数据集(2200张图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
|
8月前
|
机器学习/深度学习 人工智能 监控
坐姿标准好坏姿态数据集(图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
坐姿标准好坏姿态数据集的发布,填补了计算机视觉领域在“细分健康行为识别”上的空白。它不仅具有研究价值,更在实际应用层面具备广阔前景。从青少年的健康教育,到办公室的智能提醒,再到驾驶员的安全监控和康复训练,本数据集都能发挥巨大的作用。
坐姿标准好坏姿态数据集(图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
|
8月前
|
机器学习/深度学习 数据采集 算法
PCB电路板缺陷检测数据集(近千张图片已划分、已标注)| 适用于YOLO系列深度学习检测任务【数据集分享】
在现代电子制造中,印刷电路板(PCB)是几乎所有电子设备的核心组成部分。随着PCB设计复杂度不断增加,人工检测PCB缺陷不仅效率低,而且容易漏检或误判。因此,利用计算机视觉和深度学习技术对PCB缺陷进行自动检测成为行业发展的必然趋势。
PCB电路板缺陷检测数据集(近千张图片已划分、已标注)| 适用于YOLO系列深度学习检测任务【数据集分享】
|
8月前
|
机器学习/深度学习 编解码 人工智能
102类农业害虫数据集(20000张图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
在现代农业发展中,病虫害监测与防治 始终是保障粮食安全和提高农作物产量的关键环节。传统的害虫识别主要依赖人工观察与统计,不仅效率低下,而且容易受到主观经验、环境条件等因素的影响,导致识别准确率不足。
|
机器学习/深度学习 人工智能 监控
单车、共享单车已标注数据集(图片已划分、已标注)|适用于深度学习检测任务【数据集分享】
数据是人工智能的“燃料”。一个高质量、标注精准的单车与共享单车数据集,不仅能够推动学术研究的进步,还能为智慧交通、智慧城市的建设提供有力支撑。 在计算机视觉领域,研究者们常常会遇到“数据鸿沟”问题:公开数据集与真实业务需求之间存在不匹配。本次分享的数据集正是为了弥补这一不足,使得研究人员与工程师能够快速切入单车检测领域,加速模型从实验室走向真实应用场景。
|
8月前
|
机器学习/深度学习 自动驾驶 算法
道路表面缺陷数据集(裂缝/井盖/坑洼)(6000张图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
随着城市化与交通运输业的快速发展,道路基础设施的健康状况直接关系到出行安全与城市运行效率。长期高强度的使用、气候变化以及施工质量差异,都会导致道路表面出现裂缝、坑洼、井盖下沉及修补不良等缺陷。这些问题不仅影响驾驶舒适度,还可能引发交通事故,增加道路养护成本。
道路表面缺陷数据集(裂缝/井盖/坑洼)(6000张图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
|
9月前
|
机器学习/深度学习 存储 监控
基于深度学习YOLO框架的城市道路损伤检测与评估项目系统【附完整源码+数据集】
本项目基于深度学习的YOLO框架,成功实现了城市道路损伤的自动检测与评估。通过YOLOv8模型,我们能够高效地识别和分类路面裂缝、井盖移位、坑洼路面等常见的道路损伤类型。系统的核心优势在于其高效性和实时性,能够实时监控城市道路,自动标注损伤类型,并生成损伤评估报告。
483 0
基于深度学习YOLO框架的城市道路损伤检测与评估项目系统【附完整源码+数据集】