15个超级棒的外文免费数据集,学习数据分析不愁没有数据用了!

简介: 15个超级棒的外文免费数据集,学习数据分析不愁没有数据用了!


今天我们来介绍几个完全免费的数据集下载网站,相信大家一定能从中得到一些帮助!

不过因为都是国外的网站,那么某些网站使用起来当然需要一些“手段”啦,正所谓,八仙过海各显神通,怎么进入这些网站,就看自己的本事了!

FiveThirtyEight

FiveThirtyEight 是一个非常流行的互动新闻和体育网站,是由 Nate Silver 创办的。网站上有许多非常有趣的数据分析文章,可以给我们提供很多学习思路。

FiveThirtyEight 文章中使用的数据集可以在Github上在线获得

https://github.com/fivethirtyeight/data

以下是一些示例:

航空安全-包含来自各航空公司的事故信息。

美国天气历史-美国历史天气数据。

研究药物-美国谁在服用阿达拉的数据。

网站链接

http://fivethirtyeight.com/

BuzzFeed

BuzzFeed 最初是一家低质量文章的供应商,后来发展的很不错,其网站上也有很多比较不错的数据分析文章。

BuzzFeed使文章中使用的数据集在Github上可用

https://github.com/BuzzFeedNews

以下是一些示例:

联邦侦察机-包含用于国内监视的飞机的数据。

寨卡病毒-有关寨卡病毒爆发地理的数据。

枪支背景调查-数据背景调查的人试图购买枪支。

https://www.buzzfeed.com/

NASA

NASA 是一个由公共资助的政府组织,所以它的所有数据都是公开的。任何人都可以在网站下载与地球科学有关的数据集和与空间有关的数据集。

相关数据链接

https://earthdata.nasa.gov/

AWS Public Data sets

Amazon 在其 Amazon Web 服务平台上提供大型数据集,我们可以免费下载数据并在自己的计算机上使用它,当然是需要 AWS 账户的。

以下是一些示例:

googlebooks中的n-gram列表-来自大量书籍的常用词和词组。

普通爬网语料库-从超过50亿网页爬网数据。

陆地卫星图像-地球表面的中等分辨率卫星图像。

网站链接

https://aws.amazon.com/datasets/?_encoding=UTF8&jiveRedirect=1

Google Public Data sets

和亚马逊很像,谷歌也有云托管服务,称为谷歌云平台。

以下是一些示例:

USA名称-包含从1879年到2015年美国所有的社会保障名称申请。

Github活动-包含超过280万个公共Github存储库上的所有公共活动。

历史天气-1929年至2016年美国国家海洋和大气管理局9000个气象站的数据。

网站链接

https://cloud.google.com/bigquery/public-data/

Wikipedia

维基百科是一个免费的、在线社区编辑百科全书。维基百科包含了惊人的知识广度,包含了从奥斯曼-哈布斯堡战争到莱昂纳多-尼莫伊的各种内容。作为维基百科致力于提升知识的一部分,他们免费提供所有内容,并定期转存网站上所有文章。

数据下载地址

https://en.wikipedia.org/wiki/Wikipedia:Database_download

Kaggle

Kaggle是一个数据科学社区,主办机器学习竞赛。网站上有各种外部提供的有趣数据集,既有现场比赛,也有历史比赛。我们可以下载任何一项数据,但是必须注册Kaggle并接受比赛的服务条款。

数据下载地址

https://www.kaggle.com/datasets

UCI Machine Learning Repository

UCI机器学习库是web上最古老的数据源之一,因为数据集是由用户贡献的,所以具有不同级别的文档和清洁度,但绝大多数数据集都是干净的,可以应用于机器学习当中。可以把UCI作为寻找有趣数据集的第一站。

地址

https://archive.ics.uci.edu/ml/datasets.php

Quandl

Quandl是经济和金融数据的存储库,有些信息是免费的,但许多数据集需要付费,Quandl对于建立预测经济指标或股票价格的模型是很有用的。由于有大量可用的数据集,所以可以建立一个复杂的模型,使用许多数据集来预测另一个模型中的值。

地址

https://www.quandl.com/browse

data.world

data.world 将自己描述为“数据人的社交网络”,但可以更准确地描述为“数据的GitHub”。它是一个可以搜索、复制、分析和下载数据集的地方。此外,我们还可以将数据上载到data.world并利用它与其他人合作。

在相对较短的时间内,它已经成为一个'应该去'的地方获取数据,这绝对是一个值得多逛逛的网站

地址

https://www.data.world/

Data.gov

Data.gov是一个相对较新的网站,是美国政府开放。Data.gov可以从多个美国政府机构下载数据,数据范围从政府预算到学校表现分数等等。但是许多数据需要额外探索,有时很难找出哪个数据集是“正确的”版本。

网站地址

https://www.data.gov/

The World Bank

世界银行是一个向发展中国家提供贷款和咨询的全球发展组织,世界银行定期为发展中国家的项目提供资金,然后收集数据以监测这些项目的成功与否。

我们可以直接浏览世界银行的数据集,无需注册。但是在下载的时候,有时会出现问题,所以需要多点击几次下载才可以成功下载到数据

地址

http://data.worldbank.org/

/r/datasets

Reddit是一个流行的社区讨论网站,它有专门的地方来分享有趣的数据集。它被称为datasets subreddit,或/r/datasets。这些数据集的范围变化很大,因为它们都是用户提交的,所以有些数据集看起来有些奇妙。

地址

https://www.reddit.com/r/datasets/top/?sort=top&t=all

Academic Torrents

Academic Torrents是一个比较年轻的网站,旨在共享来自科学论文的数据集。因为它是一个较新的站点,所以很难判断最常见的数据集类型是什么样的。目前,它有大量缺乏上下文的有趣数据集。

地址

http://academictorrents.com/browse.php?cat=6

Github

这个就不多说了吧,不知道的可以拖出去了!

好了,今天的分享就到这里,喜欢就给个“在看”再走吧!

相关文章
|
28天前
|
数据采集 数据可视化 数据挖掘
多维数据分析:使用Pandas进行复杂的数据操作和聚合
【4月更文挑战第12天】Pandas是Python的强大数据分析库,提供DataFrame数据结构进行多维数据处理。本文介绍了使用Pandas进行多维数据分析的流程:1) 导入数据(如CSV、Excel);2) 数据预处理,包括缺失值处理和类型转换;3) 数据探索,利用describe()、hist()、plot()等进行统计和可视化;4) 数据操作,如筛选、排序和分组;5) 数据聚合,通过groupby()和agg()进行计算。文中还给出了电商数据分析的案例,展示Pandas在实际应用中的价值。
|
1月前
|
人工智能 监控 数据可视化
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】
|
10天前
|
数据可视化 前端开发 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(上)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
2天前
|
数据采集 数据可视化 数据挖掘
Python 与 PySpark数据分析实战指南:解锁数据洞见
Python 与 PySpark数据分析实战指南:解锁数据洞见
|
4天前
|
SQL 数据采集 存储
Hive实战 —— 电商数据分析(全流程详解 真实数据)
关于基于小型数据的Hive数仓构建实战,目的是通过分析某零售企业的门店数据来进行业务洞察。内容涵盖了数据清洗、数据分析和Hive表的创建。项目需求包括客户画像、消费统计、资源利用率、特征人群定位和数据可视化。数据源包括Customer、Transaction、Store和Review四张表,涉及多个维度的聚合和分析,如按性别、国家统计客户、按时间段计算总收入等。项目执行需先下载数据和配置Zeppelin环境,然后通过Hive进行数据清洗、建表和分析。在建表过程中,涉及ODS、DWD、DWT、DWS和DM五层,每层都有其特定的任务和粒度。最后,通过Hive SQL进行各种业务指标的计算和分析。
20 1
Hive实战 —— 电商数据分析(全流程详解 真实数据)
|
10天前
|
前端开发 数据可视化 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(下)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
12天前
|
数据挖掘 Python
SPSS时间序列ARIMA、指数平滑法数据分析汽车销量数据
SPSS时间序列ARIMA、指数平滑法数据分析汽车销量数据
|
14天前
|
机器学习/深度学习 安全 数据挖掘
数据分享|函数型数据分析部分省市新冠疫情数据
数据分享|函数型数据分析部分省市新冠疫情数据
|
21天前
|
数据可视化 数据挖掘 Linux
如何在Linux部署DataEase数据分析服务并实现无公网IP远程分析内网数据信息
如何在Linux部署DataEase数据分析服务并实现无公网IP远程分析内网数据信息
|
21天前
|
数据挖掘 API 区块链
《区块链公链数据分析简易速速上手小册》第2章:数据获取基础(2024 最新版)
《区块链公链数据分析简易速速上手小册》第2章:数据获取基础(2024 最新版)
41 0