一、有很多小伙伴说学习大数据和人工智能,需要用到数据,但是又不知道数据去哪里拿,这里我分享一下之前收藏过的一些网站给大家。
二、先来回答大家两个问题:
问题1:博客里所所涉及到的数据在哪里拿?
后台总是有很多小伙伴想问我拿我博客的数据,关于经常被问到的,我都放在公众号匹配词汇中了,只需要回复就可以拿到下载链接。
问题2:想学习机器学习,不知道数据怎么来?
要问数据可以从哪里来的话,公司里面的数据是肯定拿不到的了,所以主要有公开的数据、学习框架里都有内置的数据、实验室的数据、还有各种比赛也会提供各种脱敏的数据,当然,如果你熟悉爬虫的话,你也可以自己写爬虫去爬去一些数据。
三、以下是收集到的链接
大数据
https://delicious.com/pskomoroch/dataset
http://stackoverflow.com/questions/10843892/download-large-data-for-hadoop
搜狗实验室
http://www.sogou.com/labs/resources.html?v=1
气象数据集
https://www.ncdc.noaa.gov/data-access/quick-links
气候监测数据集
http://cdiac.ornl.gov/ftp/ndp026b
机器学习
亚马逊网络服务数据
http://aws.amazon.com/datasets
航空公司数据 (2009 年 ASA 挑战)
http://stat-computing.org/dataexpo/2009/the-data.html
澳大利亚天气
http://www.bom.gov.au/climate/dwo/
因果关系工作台
http://www.causality.inf.ethz.ch/repository.php
Kaggle 竞争数据
https://www.kaggle.com/datasets
KDNuggets 竞争网站
www.kdnuggets.com/datasets/
机器学习的数据集存储库
医疗保险数据文件
微软研究院
http://research.microsoft.com/apps/dp/dl/downloads.aspx
百万歌曲数据集
http://blog.echonest.com/post/3639160982/million-song-dataset
歌曲数据集
http://labrosa.ee.columbia.edu/millionsong/pages/additional-datasets
RDataMining.com R 和数据挖掘电子书数据
http://www.rdatamining.com/data
革命分析集合
http://www.revolutionanalytics.com/subscriptions/datasets/
社交网络
http://www.cs.cmu.edu//ancestry.com/ ~ jelsas / 数据
UCI 机器学习库
http://archive.ics.uci.edu/ml/
535 亿点击
http://cnets.indiana.edu/groups/nan/webtraffic/click-dataset
http://archive.ics.uci.edu/ml/
http://www.ics.uci.edu/~mlearn//MLRepository.htm
机器学习样本数据库
http://www.ics.uci.edu/~mlearn/MLRepository.html
关于基金的数据挖掘的网站
http://www.gotofund.com/index.asp
数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
癌症基因
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi
金融数据
http://lisp.vse.cz/pkdd99/Challenge/chall.htm
网络
斯坦福大学大型网络数据收集
http://snap.stanford.edu/data/
微软匿名网络数据
http://kdd.ics.uci.edu/databases/msweb/msweb.html
MSNBC 匿名网络数据
http://kdd.ics.uci.edu/databases/msnbc/msnbc.html
SyskillWebert Web 数据
http://kdd.ics.uci.edu/databases/SyskillWebert/SyskillWebert.html
图像
ImageNet (包含 1400 万的图像)
Tiny Images Dataset (包含 8000 万的 32x32 图像)
http://horatio.cs.nyu.edu/mit/tiny/data/index.html
MirFlickr1M (包含 100 万的图像)
http://press.liacs.nl/mirflickr/
CoPhIR (包含 1 亿 600 万的图像 )
http://cophir.isti.cnr.it/whatis.html
SBU captioned photo dataset (包含 100 万的图像)
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/
Large-Scale Image Annotation using Visual Synset(ICCV 2011) (包含 2 亿图像 )
http://cpl.cc.gatech.edu/projects/VisualSynset/
NUS-WIDE(包含 27 万的图像)
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm
SUN dataset (包含 13 万的图像)
http://people.csail.mit.edu/jxiao/SUN/
MSRA-MM (包含 100 万的图像,23000 视频 )
http://research.microsoft.com/enus/projects/msrammdata/
TRECVID
卡耐基 - 梅隆的脸图片
http://kdd.ics.uci.edu/databases/faces/faces.html
金星上的火山
http://kdd.ics.uci.edu/databases/volcanoes/volcanoes.html
雅虎发布超大 Flickr 数据集 1 亿的图片 + 视频
http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for
100 多个有趣的数据集
http://www.csdn.net/article/2014-06-06/2820111-100-Interesting-Data-Sets-for-Statistics
图像处理相关个人主页、研究组及公开数据集网址
http://blog.sciencenet.cn/blog-673472-759786.html
Public Domain Collections
Data360