人工智能、大数据、数据挖掘、机器学习-数据集来源(上)

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 人工智能、大数据、数据挖掘、机器学习-数据集来源(上)

一、有很多小伙伴说学习大数据和人工智能,需要用到数据,但是又不知道数据去哪里拿,这里我分享一下之前收藏过的一些网站给大家。


二、先来回答大家两个问题:


问题1:博客里所所涉及到的数据在哪里拿?


后台总是有很多小伙伴想问我拿我博客的数据,关于经常被问到的,我都放在公众号匹配词汇中了,只需要回复就可以拿到下载链接。


问题2:想学习机器学习,不知道数据怎么来?


要问数据可以从哪里来的话,公司里面的数据是肯定拿不到的了,所以主要有公开的数据、学习框架里都有内置的数据、实验室的数据、还有各种比赛也会提供各种脱敏的数据,当然,如果你熟悉爬虫的话,你也可以自己写爬虫去爬去一些数据。


三、以下是收集到的链接


大数据


https://delicious.com/pskomoroch/dataset

http://stackoverflow.com/questions/10843892/download-large-data-for-hadoop

http://konect.uni-koblenz.de/

搜狗实验室


http://www.sogou.com/labs/resources.html?v=1


气象数据集


https://www.ncdc.noaa.gov/data-access/quick-links


气候监测数据集


http://cdiac.ornl.gov/ftp/ndp026b


机器学习


亚马逊网络服务数据


http://aws.amazon.com/datasets


航空公司数据 (2009 年 ASA 挑战)


http://stat-computing.org/dataexpo/2009/the-data.html


澳大利亚天气


http://www.bom.gov.au/climate/dwo/


因果关系工作台


http://www.causality.inf.ethz.ch/repository.php


Kaggle 竞争数据


https://www.kaggle.com/datasets


KDNuggets 竞争网站


www.kdnuggets.com/datasets/


机器学习的数据集存储库


http://mldata.org/


医疗保险数据文件


http://go.cms.gov/19xxPN4


微软研究院


http://research.microsoft.com/apps/dp/dl/downloads.aspx


百万歌曲数据集


http://blog.echonest.com/post/3639160982/million-song-dataset


歌曲数据集


http://labrosa.ee.columbia.edu/millionsong/pages/additional-datasets


RDataMining.com R 和数据挖掘电子书数据


http://www.rdatamining.com/data


革命分析集合


http://www.revolutionanalytics.com/subscriptions/datasets/


社交网络


http://www.cs.cmu.edu//ancestry.com/ ~ jelsas / 数据


UCI 机器学习库


http://archive.ics.uci.edu/ml/


535 亿点击


http://cnets.indiana.edu/groups/nan/webtraffic/click-dataset


http://archive.ics.uci.edu/ml/


http://www.ics.uci.edu/~mlearn//MLRepository.htm


机器学习样本数据库


http://kdd.ics.uci.edu/


http://www.ics.uci.edu/~mlearn/MLRepository.html


关于基金的数据挖掘的网站


http://www.gotofund.com/index.asp


数据生成器的链接


http://www.cse.cuhk.edu.hk/~kdd/data_collection.html


癌症基因


http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi


金融数据


http://lisp.vse.cz/pkdd99/Challenge/chall.htm


网络


斯坦福大学大型网络数据收集


http://snap.stanford.edu/data/


微软匿名网络数据


http://kdd.ics.uci.edu/databases/msweb/msweb.html


MSNBC 匿名网络数据


http://kdd.ics.uci.edu/databases/msnbc/msnbc.html


SyskillWebert Web 数据


http://kdd.ics.uci.edu/databases/SyskillWebert/SyskillWebert.html


图像


ImageNet (包含 1400 万的图像)


http://www.image-net.org/


Tiny Images Dataset (包含 8000 万的 32x32 图像)


http://horatio.cs.nyu.edu/mit/tiny/data/index.html


MirFlickr1M (包含 100 万的图像)


http://press.liacs.nl/mirflickr/


CoPhIR (包含 1 亿 600 万的图像 )


http://cophir.isti.cnr.it/whatis.html


SBU captioned photo dataset (包含 100 万的图像)


http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/


Large-Scale Image Annotation using Visual Synset(ICCV 2011) (包含 2 亿图像 )


http://cpl.cc.gatech.edu/projects/VisualSynset/


NUS-WIDE(包含 27 万的图像)


http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm


SUN dataset (包含 13 万的图像)


http://people.csail.mit.edu/jxiao/SUN/


MSRA-MM (包含 100 万的图像,23000 视频 )


http://research.microsoft.com/enus/projects/msrammdata/


TRECVID


http://trecvid.nist.gov/


卡耐基 - 梅隆的脸图片


http://kdd.ics.uci.edu/databases/faces/faces.html


金星上的火山


http://kdd.ics.uci.edu/databases/volcanoes/volcanoes.html


雅虎发布超大 Flickr 数据集 1 亿的图片 + 视频


http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for


100 多个有趣的数据集


http://www.csdn.net/article/2014-06-06/2820111-100-Interesting-Data-Sets-for-Statistics


图像处理相关个人主页、研究组及公开数据集网址


http://blog.sciencenet.cn/blog-673472-759786.html


Public Domain Collections

Data360

http://www.data360.org/index.aspx

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
19天前
|
机器学习/深度学习 人工智能 安全
探索AI的未来:从机器学习到深度学习
【10月更文挑战第28天】本文将带你走进AI的世界,从机器学习的基本概念到深度学习的复杂应用,我们将一起探索AI的未来。你将了解到AI如何改变我们的生活,以及它在未来可能带来的影响。无论你是AI专家还是初学者,这篇文章都将为你提供新的视角和思考。让我们一起探索AI的奥秘,看看它将如何塑造我们的未来。
55 3
|
1月前
|
机器学习/深度学习 数据采集 人工智能
AI与机器学习:从理论到实践
【10月更文挑战第2天】本文将深入探讨AI和机器学习的基本概念,以及它们如何从理论转化为实际的应用。我们将通过Python代码示例,展示如何使用机器学习库scikit-learn进行数据预处理、模型训练和预测。无论你是AI领域的初学者,还是有一定基础的开发者,这篇文章都将为你提供有价值的信息和知识。
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习之解释性AI与可解释性机器学习
随着人工智能技术的广泛应用,机器学习模型越来越多地被用于决策过程。然而,这些模型,尤其是深度学习模型,通常被视为“黑箱”,难以理解其背后的决策逻辑。解释性AI(Explainable AI, XAI)和可解释性机器学习(Interpretable Machine Learning, IML)旨在解决这个问题,使模型的决策过程透明、可信。
32 2
|
15天前
|
机器学习/深度学习 数据采集 人工智能
揭秘AI:机器学习的魔法与代码
【10月更文挑战第33天】本文将带你走进AI的世界,了解机器学习的原理和应用。我们将通过Python代码示例,展示如何实现一个简单的线性回归模型。无论你是AI新手还是有经验的开发者,这篇文章都会给你带来新的启示。让我们一起探索AI的奥秘吧!
|
16天前
|
存储 人工智能 分布式计算
大数据& AI 产品月刊【2024年10月】
大数据& AI 产品技术月刊【2024年10月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI的奥秘:机器学习入门指南
【10月更文挑战第30天】本篇文章是一份初学者友好的机器学习入门指南,旨在帮助读者理解并开始实践机器学习。我们将介绍机器学习的基本概念,包括监督学习、无监督学习和强化学习等。我们还将提供一些实用的代码示例,以帮助读者更好地理解和应用这些概念。无论你是编程新手,还是有一定经验的开发者,这篇文章都将为你提供一个清晰的机器学习入门路径。
34 2
|
26天前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
77 10
|
26天前
|
机器学习/深度学习 数据采集 人工智能
揭秘AI的魔法:机器学习如何改变我们的世界
【10月更文挑战第22天】在这篇文章中,我们将深入探讨机器学习的奥秘,揭示它是如何在我们的日常生活中扮演着越来越重要的角色。从简单的数据分类到复杂的预测模型,机器学习的应用已经渗透到各个领域。我们将通过实例和代码示例,展示机器学习的基本概念、工作原理以及它如何改变我们的生活。无论你是科技爱好者还是对AI充满好奇的初学者,这篇文章都将为你打开一扇通往未来的大门。
|
1月前
|
机器学习/深度学习 存储 人工智能
揭秘机器学习背后的神秘力量:如何高效收集数据,让AI更懂你?
【10月更文挑战第12天】在数据驱动的时代,机器学习广泛应用,从智能推荐到自动驾驶。本文以电商平台个性化推荐系统为例,探讨数据收集方法,包括明确数据需求、选择数据来源、编写代码自动化收集、数据清洗与预处理及特征工程,最终完成数据的训练集和测试集划分,为模型训练奠定基础。
46 3
|
1月前
|
机器学习/深度学习 自然语言处理 算法
大数据与机器学习
大数据与机器学习紧密相关,前者指代海量、多样化且增长迅速的数据集,后者则是使计算机通过数据自动学习并优化的技术。大数据涵盖结构化、半结构化及非结构化的信息,其应用广泛,包括商业智能、金融和医疗保健等领域;而机器学习分为监督学习、无监督学习及强化学习,被应用于图像识别、自然语言处理和推荐系统等方面。二者相结合,能有效提升数据分析的准确性和效率,在智能交通、医疗及金融科技等多个领域创造巨大价值。
101 2

热门文章

最新文章