人工智能、大数据、数据挖掘、机器学习-数据集来源(上)

简介: 人工智能、大数据、数据挖掘、机器学习-数据集来源(上)

一、有很多小伙伴说学习大数据和人工智能,需要用到数据,但是又不知道数据去哪里拿,这里我分享一下之前收藏过的一些网站给大家。


二、先来回答大家两个问题:


问题1:博客里所所涉及到的数据在哪里拿?


后台总是有很多小伙伴想问我拿我博客的数据,关于经常被问到的,我都放在公众号匹配词汇中了,只需要回复就可以拿到下载链接。


问题2:想学习机器学习,不知道数据怎么来?


要问数据可以从哪里来的话,公司里面的数据是肯定拿不到的了,所以主要有公开的数据、学习框架里都有内置的数据、实验室的数据、还有各种比赛也会提供各种脱敏的数据,当然,如果你熟悉爬虫的话,你也可以自己写爬虫去爬去一些数据。


三、以下是收集到的链接


大数据


https://delicious.com/pskomoroch/dataset

http://stackoverflow.com/questions/10843892/download-large-data-for-hadoop

http://konect.uni-koblenz.de/

搜狗实验室


http://www.sogou.com/labs/resources.html?v=1


气象数据集


https://www.ncdc.noaa.gov/data-access/quick-links


气候监测数据集


http://cdiac.ornl.gov/ftp/ndp026b


机器学习


亚马逊网络服务数据


http://aws.amazon.com/datasets


航空公司数据 (2009 年 ASA 挑战)


http://stat-computing.org/dataexpo/2009/the-data.html


澳大利亚天气


http://www.bom.gov.au/climate/dwo/


因果关系工作台


http://www.causality.inf.ethz.ch/repository.php


Kaggle 竞争数据


https://www.kaggle.com/datasets


KDNuggets 竞争网站


www.kdnuggets.com/datasets/


机器学习的数据集存储库


http://mldata.org/


医疗保险数据文件


http://go.cms.gov/19xxPN4


微软研究院


http://research.microsoft.com/apps/dp/dl/downloads.aspx


百万歌曲数据集


http://blog.echonest.com/post/3639160982/million-song-dataset


歌曲数据集


http://labrosa.ee.columbia.edu/millionsong/pages/additional-datasets


RDataMining.com R 和数据挖掘电子书数据


http://www.rdatamining.com/data


革命分析集合


http://www.revolutionanalytics.com/subscriptions/datasets/


社交网络


http://www.cs.cmu.edu//ancestry.com/ ~ jelsas / 数据


UCI 机器学习库


http://archive.ics.uci.edu/ml/


535 亿点击


http://cnets.indiana.edu/groups/nan/webtraffic/click-dataset


http://archive.ics.uci.edu/ml/


http://www.ics.uci.edu/~mlearn//MLRepository.htm


机器学习样本数据库


http://kdd.ics.uci.edu/


http://www.ics.uci.edu/~mlearn/MLRepository.html


关于基金的数据挖掘的网站


http://www.gotofund.com/index.asp


数据生成器的链接


http://www.cse.cuhk.edu.hk/~kdd/data_collection.html


癌症基因


http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi


金融数据


http://lisp.vse.cz/pkdd99/Challenge/chall.htm


网络


斯坦福大学大型网络数据收集


http://snap.stanford.edu/data/


微软匿名网络数据


http://kdd.ics.uci.edu/databases/msweb/msweb.html


MSNBC 匿名网络数据


http://kdd.ics.uci.edu/databases/msnbc/msnbc.html


SyskillWebert Web 数据


http://kdd.ics.uci.edu/databases/SyskillWebert/SyskillWebert.html


图像


ImageNet (包含 1400 万的图像)


http://www.image-net.org/


Tiny Images Dataset (包含 8000 万的 32x32 图像)


http://horatio.cs.nyu.edu/mit/tiny/data/index.html


MirFlickr1M (包含 100 万的图像)


http://press.liacs.nl/mirflickr/


CoPhIR (包含 1 亿 600 万的图像 )


http://cophir.isti.cnr.it/whatis.html


SBU captioned photo dataset (包含 100 万的图像)


http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/


Large-Scale Image Annotation using Visual Synset(ICCV 2011) (包含 2 亿图像 )


http://cpl.cc.gatech.edu/projects/VisualSynset/


NUS-WIDE(包含 27 万的图像)


http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm


SUN dataset (包含 13 万的图像)


http://people.csail.mit.edu/jxiao/SUN/


MSRA-MM (包含 100 万的图像,23000 视频 )


http://research.microsoft.com/enus/projects/msrammdata/


TRECVID


http://trecvid.nist.gov/


卡耐基 - 梅隆的脸图片


http://kdd.ics.uci.edu/databases/faces/faces.html


金星上的火山


http://kdd.ics.uci.edu/databases/volcanoes/volcanoes.html


雅虎发布超大 Flickr 数据集 1 亿的图片 + 视频


http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for


100 多个有趣的数据集


http://www.csdn.net/article/2014-06-06/2820111-100-Interesting-Data-Sets-for-Statistics


图像处理相关个人主页、研究组及公开数据集网址


http://blog.sciencenet.cn/blog-673472-759786.html


Public Domain Collections

Data360

http://www.data360.org/index.aspx

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
11月前
|
机器学习/深度学习 数据采集 人工智能
别让“大数据”变成“大忽悠”——聊聊机器学习的真本事
别让“大数据”变成“大忽悠”——聊聊机器学习的真本事
280 9
|
11月前
|
机器学习/深度学习 人工智能 供应链
从概念到商业价值:AI、机器学习与深度学习全景指南
在这个科技飞速发展的时代🚀,人工智能正以惊人的速度渗透到我们的生活和工作中👀。但面对铺天盖地的AI术语和概念,很多人感到困惑不已😣。"AI"、"机器学习"、"深度学习"和"神经网络"到底有什么区别?它们如何相互关联?如何利用这些技术提升工作效率和创造价值?
585 0
|
9月前
|
机器学习/深度学习 人工智能 监控
AI 基础知识从0.1到0.2——用“房价预测”入门机器学习全流程
本系列文章深入讲解了从Seq2Seq、RNN到Transformer,再到GPT模型的关键技术原理与实现细节,帮助读者全面掌握Transformer及其在NLP中的应用。同时,通过一个房价预测的完整案例,介绍了算法工程师如何利用数据训练模型并解决实际问题,涵盖需求分析、数据收集、模型训练与部署等全流程。文章适合初学者和开发者学习AI基础与实战技能。
1081 25
AI 基础知识从0.1到0.2——用“房价预测”入门机器学习全流程
|
7月前
|
数据采集 传感器 人工智能
没有大数据,哪来人工智能?——聊聊“大数据喂养下的AI进化史”
没有大数据,哪来人工智能?——聊聊“大数据喂养下的AI进化史”
309 6
|
9月前
|
人工智能 自动驾驶 大数据
“AI再聪明,也得靠大数据喂饱它”:聊聊大数据与人工智能的双剑合璧
“AI再聪明,也得靠大数据喂饱它”:聊聊大数据与人工智能的双剑合璧
430 2
|
9月前
|
SQL 分布式计算 数据挖掘
你以为大数据只是存?其实真正的“宝藏”藏在这招里——数据挖掘!
你以为大数据只是存?其实真正的“宝藏”藏在这招里——数据挖掘!
268 1
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
Java 大视界 -- Java 大数据机器学习模型在自然语言生成中的可控性研究与应用(229)
本文深入探讨Java大数据与机器学习在自然语言生成(NLG)中的可控性研究,分析当前生成模型面临的“失控”挑战,如数据噪声、标注偏差及黑盒模型信任问题,提出Java技术在数据清洗、异构框架融合与生态工具链中的关键作用。通过条件注入、强化学习与模型融合等策略,实现文本生成的精准控制,并结合网易新闻与蚂蚁集团的实战案例,展示Java在提升生成效率与合规性方面的卓越能力,为金融、法律等强监管领域提供技术参考。
|
8月前
|
机器学习/深度学习 算法 Java
Java 大视界 -- Java 大数据机器学习模型在生物信息学基因功能预测中的优化与应用(223)
本文探讨了Java大数据与机器学习模型在生物信息学中基因功能预测的优化与应用。通过高效的数据处理能力和智能算法,提升基因功能预测的准确性与效率,助力医学与农业发展。
|
8月前
|
机器学习/深度学习 搜索推荐 数据可视化
Java 大视界 -- Java 大数据机器学习模型在电商用户流失预测与留存策略制定中的应用(217)
本文探讨 Java 大数据与机器学习在电商用户流失预测与留存策略中的应用。通过构建高精度预测模型与动态分层策略,助力企业提前识别流失用户、精准触达,实现用户留存率与商业价值双提升,为电商应对用户流失提供技术新思路。
|
8月前
|
机器学习/深度学习 存储 分布式计算
Java 大视界 --Java 大数据机器学习模型在金融风险压力测试中的应用与验证(211)
本文探讨了Java大数据与机器学习模型在金融风险压力测试中的创新应用。通过多源数据采集、模型构建与优化,结合随机森林、LSTM等算法,实现信用风险动态评估、市场极端场景模拟与操作风险预警。案例分析展示了花旗银行与蚂蚁集团的智能风控实践,验证了技术在提升风险识别效率与降低金融风险损失方面的显著成效。

热门文章

最新文章