人工智能、大数据、数据挖掘、机器学习-数据集来源(上)

简介: 人工智能、大数据、数据挖掘、机器学习-数据集来源(上)

一、有很多小伙伴说学习大数据和人工智能,需要用到数据,但是又不知道数据去哪里拿,这里我分享一下之前收藏过的一些网站给大家。


二、先来回答大家两个问题:


问题1:博客里所所涉及到的数据在哪里拿?


后台总是有很多小伙伴想问我拿我博客的数据,关于经常被问到的,我都放在公众号匹配词汇中了,只需要回复就可以拿到下载链接。


问题2:想学习机器学习,不知道数据怎么来?


要问数据可以从哪里来的话,公司里面的数据是肯定拿不到的了,所以主要有公开的数据、学习框架里都有内置的数据、实验室的数据、还有各种比赛也会提供各种脱敏的数据,当然,如果你熟悉爬虫的话,你也可以自己写爬虫去爬去一些数据。


三、以下是收集到的链接


大数据


https://delicious.com/pskomoroch/dataset

http://stackoverflow.com/questions/10843892/download-large-data-for-hadoop

http://konect.uni-koblenz.de/

搜狗实验室


http://www.sogou.com/labs/resources.html?v=1


气象数据集


https://www.ncdc.noaa.gov/data-access/quick-links


气候监测数据集


http://cdiac.ornl.gov/ftp/ndp026b


机器学习


亚马逊网络服务数据


http://aws.amazon.com/datasets


航空公司数据 (2009 年 ASA 挑战)


http://stat-computing.org/dataexpo/2009/the-data.html


澳大利亚天气


http://www.bom.gov.au/climate/dwo/


因果关系工作台


http://www.causality.inf.ethz.ch/repository.php


Kaggle 竞争数据


https://www.kaggle.com/datasets


KDNuggets 竞争网站


www.kdnuggets.com/datasets/


机器学习的数据集存储库


http://mldata.org/


医疗保险数据文件


http://go.cms.gov/19xxPN4


微软研究院


http://research.microsoft.com/apps/dp/dl/downloads.aspx


百万歌曲数据集


http://blog.echonest.com/post/3639160982/million-song-dataset


歌曲数据集


http://labrosa.ee.columbia.edu/millionsong/pages/additional-datasets


RDataMining.com R 和数据挖掘电子书数据


http://www.rdatamining.com/data


革命分析集合


http://www.revolutionanalytics.com/subscriptions/datasets/


社交网络


http://www.cs.cmu.edu//ancestry.com/ ~ jelsas / 数据


UCI 机器学习库


http://archive.ics.uci.edu/ml/


535 亿点击


http://cnets.indiana.edu/groups/nan/webtraffic/click-dataset


http://archive.ics.uci.edu/ml/


http://www.ics.uci.edu/~mlearn//MLRepository.htm


机器学习样本数据库


http://kdd.ics.uci.edu/


http://www.ics.uci.edu/~mlearn/MLRepository.html


关于基金的数据挖掘的网站


http://www.gotofund.com/index.asp


数据生成器的链接


http://www.cse.cuhk.edu.hk/~kdd/data_collection.html


癌症基因


http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi


金融数据


http://lisp.vse.cz/pkdd99/Challenge/chall.htm


网络


斯坦福大学大型网络数据收集


http://snap.stanford.edu/data/


微软匿名网络数据


http://kdd.ics.uci.edu/databases/msweb/msweb.html


MSNBC 匿名网络数据


http://kdd.ics.uci.edu/databases/msnbc/msnbc.html


SyskillWebert Web 数据


http://kdd.ics.uci.edu/databases/SyskillWebert/SyskillWebert.html


图像


ImageNet (包含 1400 万的图像)


http://www.image-net.org/


Tiny Images Dataset (包含 8000 万的 32x32 图像)


http://horatio.cs.nyu.edu/mit/tiny/data/index.html


MirFlickr1M (包含 100 万的图像)


http://press.liacs.nl/mirflickr/


CoPhIR (包含 1 亿 600 万的图像 )


http://cophir.isti.cnr.it/whatis.html


SBU captioned photo dataset (包含 100 万的图像)


http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/


Large-Scale Image Annotation using Visual Synset(ICCV 2011) (包含 2 亿图像 )


http://cpl.cc.gatech.edu/projects/VisualSynset/


NUS-WIDE(包含 27 万的图像)


http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm


SUN dataset (包含 13 万的图像)


http://people.csail.mit.edu/jxiao/SUN/


MSRA-MM (包含 100 万的图像,23000 视频 )


http://research.microsoft.com/enus/projects/msrammdata/


TRECVID


http://trecvid.nist.gov/


卡耐基 - 梅隆的脸图片


http://kdd.ics.uci.edu/databases/faces/faces.html


金星上的火山


http://kdd.ics.uci.edu/databases/volcanoes/volcanoes.html


雅虎发布超大 Flickr 数据集 1 亿的图片 + 视频


http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for


100 多个有趣的数据集


http://www.csdn.net/article/2014-06-06/2820111-100-Interesting-Data-Sets-for-Statistics


图像处理相关个人主页、研究组及公开数据集网址


http://blog.sciencenet.cn/blog-673472-759786.html


Public Domain Collections

Data360

http://www.data360.org/index.aspx

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
机器学习/深度学习 人工智能 安全
探索AI的未来:从机器学习到深度学习
【10月更文挑战第28天】本文将带你走进AI的世界,从机器学习的基本概念到深度学习的复杂应用,我们将一起探索AI的未来。你将了解到AI如何改变我们的生活,以及它在未来可能带来的影响。无论你是AI专家还是初学者,这篇文章都将为你提供新的视角和思考。让我们一起探索AI的奥秘,看看它将如何塑造我们的未来。
540 3
|
机器学习/深度学习 人工智能 供应链
从概念到商业价值:AI、机器学习与深度学习全景指南
在这个科技飞速发展的时代🚀,人工智能正以惊人的速度渗透到我们的生活和工作中👀。但面对铺天盖地的AI术语和概念,很多人感到困惑不已😣。"AI"、"机器学习"、"深度学习"和"神经网络"到底有什么区别?它们如何相互关联?如何利用这些技术提升工作效率和创造价值?
680 0
|
11月前
|
机器学习/深度学习 人工智能 监控
AI 基础知识从0.1到0.2——用“房价预测”入门机器学习全流程
本系列文章深入讲解了从Seq2Seq、RNN到Transformer,再到GPT模型的关键技术原理与实现细节,帮助读者全面掌握Transformer及其在NLP中的应用。同时,通过一个房价预测的完整案例,介绍了算法工程师如何利用数据训练模型并解决实际问题,涵盖需求分析、数据收集、模型训练与部署等全流程。文章适合初学者和开发者学习AI基础与实战技能。
1321 25
AI 基础知识从0.1到0.2——用“房价预测”入门机器学习全流程
|
人工智能 安全 算法
上交大、上海人工智能实验室开源首个多轮安全对齐数据集 SafeMTData
最近,以 OpenAI o1 为代表的 AI 大模型的推理能力得到了极大提升,在代码、数学的评估上取得了令人惊讶的效果。OpenAI 声称,推理可以让模型更好的遵守安全政策,是提升模型安全的新路径。
|
11月前
|
SQL 分布式计算 数据挖掘
你以为大数据只是存?其实真正的“宝藏”藏在这招里——数据挖掘!
你以为大数据只是存?其实真正的“宝藏”藏在这招里——数据挖掘!
331 1
|
12月前
|
机器学习/深度学习 PyTorch API
昇腾AI4S图机器学习:DGL消息传递接口的PyG替换
DGL (Deep Graph Learning) 和 PyG (Pytorch Geometric) 是两个主流的图神经网络库,它们在API设计和底层实现上有一定差异,在不同场景下,研究人员会使用不同的依赖库,昇腾NPU对PyG图机器学习库的支持亲和度更高,因此有些时候需要做DGL接口的PyG替换。
|
机器学习/深度学习 PyTorch API
昇腾AI4S图机器学习:DGL图构建接口的PyG替换
本文探讨了在图神经网络中将DGL接口替换为PyG实现的方法,重点以RFdiffusion蛋白质设计模型中的SE3Transformer为例。SE3Transformer通过SE(3)等变性提取三维几何特征,其图构建部分依赖DGL接口。文章详细介绍了两个关键函数的替换:`make_full_graph` 和 `make_topk_graph`。前者构建完全连接图,后者生成k近邻图。通过PyG的高效实现(如`knn_graph`),我们简化了图结构创建过程,并调整边特征处理逻辑以兼容不同框架,从而更好地支持昇腾NPU等硬件环境。此方法为跨库迁移提供了实用参考。
|
机器学习/深度学习 人工智能 自然语言处理
AI训练师入行指南(三):机器学习算法和模型架构选择
从淘金到雕琢,将原始数据炼成智能珠宝!本文带您走进数字珠宝工坊,用算法工具打磨数据金砂。从基础的经典算法到精密的深度学习模型,结合电商、医疗、金融等场景实战,手把手教您选择合适工具,打造价值连城的智能应用。掌握AutoML改装套件与模型蒸馏术,让复杂问题迎刃而解。握紧算法刻刀,为数字世界雕刻文明!
510 6
|
机器学习/深度学习 人工智能 自然语言处理
Java+机器学习基础:打造AI学习基础
随着人工智能(AI)技术的飞速发展,越来越多的开发者开始探索如何将AI技术应用到实际业务场景中。Java作为一种强大的编程语言,不仅在企业级应用开发中占据重要地位,在AI领域也展现出了巨大的潜力。本文将通过模拟一个AI应用,从背景历史、业务场景、优缺点、底层原理等方面,介绍如何使用Java结合机器学习技术来打造一个AI学习的基础Demo。
666 18