15个超级棒的外文免费数据集,学习数据分析不愁没有数据用了!

简介: 15个超级棒的外文免费数据集,学习数据分析不愁没有数据用了!


今天我们来介绍几个完全免费的数据集下载网站,相信大家一定能从中得到一些帮助!

不过因为都是国外的网站,那么某些网站使用起来当然需要一些“手段”啦,正所谓,八仙过海各显神通,怎么进入这些网站,就看自己的本事了!

FiveThirtyEight

FiveThirtyEight 是一个非常流行的互动新闻和体育网站,是由 Nate Silver 创办的。网站上有许多非常有趣的数据分析文章,可以给我们提供很多学习思路。

FiveThirtyEight 文章中使用的数据集可以在Github上在线获得

https://github.com/fivethirtyeight/data

以下是一些示例:

航空安全-包含来自各航空公司的事故信息。

美国天气历史-美国历史天气数据。

研究药物-美国谁在服用阿达拉的数据。

网站链接

http://fivethirtyeight.com/

BuzzFeed

BuzzFeed 最初是一家低质量文章的供应商,后来发展的很不错,其网站上也有很多比较不错的数据分析文章。

BuzzFeed使文章中使用的数据集在Github上可用

https://github.com/BuzzFeedNews

以下是一些示例:

联邦侦察机-包含用于国内监视的飞机的数据。

寨卡病毒-有关寨卡病毒爆发地理的数据。

枪支背景调查-数据背景调查的人试图购买枪支。

https://www.buzzfeed.com/

NASA

NASA 是一个由公共资助的政府组织,所以它的所有数据都是公开的。任何人都可以在网站下载与地球科学有关的数据集和与空间有关的数据集。

相关数据链接

https://earthdata.nasa.gov/

AWS Public Data sets

Amazon 在其 Amazon Web 服务平台上提供大型数据集,我们可以免费下载数据并在自己的计算机上使用它,当然是需要 AWS 账户的。

以下是一些示例:

googlebooks中的n-gram列表-来自大量书籍的常用词和词组。

普通爬网语料库-从超过50亿网页爬网数据。

陆地卫星图像-地球表面的中等分辨率卫星图像。

网站链接

https://aws.amazon.com/datasets/?_encoding=UTF8&jiveRedirect=1

Google Public Data sets

和亚马逊很像,谷歌也有云托管服务,称为谷歌云平台。

以下是一些示例:

USA名称-包含从1879年到2015年美国所有的社会保障名称申请。

Github活动-包含超过280万个公共Github存储库上的所有公共活动。

历史天气-1929年至2016年美国国家海洋和大气管理局9000个气象站的数据。

网站链接

https://cloud.google.com/bigquery/public-data/

Wikipedia

维基百科是一个免费的、在线社区编辑百科全书。维基百科包含了惊人的知识广度,包含了从奥斯曼-哈布斯堡战争到莱昂纳多-尼莫伊的各种内容。作为维基百科致力于提升知识的一部分,他们免费提供所有内容,并定期转存网站上所有文章。

数据下载地址

https://en.wikipedia.org/wiki/Wikipedia:Database_download

Kaggle

Kaggle是一个数据科学社区,主办机器学习竞赛。网站上有各种外部提供的有趣数据集,既有现场比赛,也有历史比赛。我们可以下载任何一项数据,但是必须注册Kaggle并接受比赛的服务条款。

数据下载地址

https://www.kaggle.com/datasets

UCI Machine Learning Repository

UCI机器学习库是web上最古老的数据源之一,因为数据集是由用户贡献的,所以具有不同级别的文档和清洁度,但绝大多数数据集都是干净的,可以应用于机器学习当中。可以把UCI作为寻找有趣数据集的第一站。

地址

https://archive.ics.uci.edu/ml/datasets.php

Quandl

Quandl是经济和金融数据的存储库,有些信息是免费的,但许多数据集需要付费,Quandl对于建立预测经济指标或股票价格的模型是很有用的。由于有大量可用的数据集,所以可以建立一个复杂的模型,使用许多数据集来预测另一个模型中的值。

地址

https://www.quandl.com/browse

data.world

data.world 将自己描述为“数据人的社交网络”,但可以更准确地描述为“数据的GitHub”。它是一个可以搜索、复制、分析和下载数据集的地方。此外,我们还可以将数据上载到data.world并利用它与其他人合作。

在相对较短的时间内,它已经成为一个'应该去'的地方获取数据,这绝对是一个值得多逛逛的网站

地址

https://www.data.world/

Data.gov

Data.gov是一个相对较新的网站,是美国政府开放。Data.gov可以从多个美国政府机构下载数据,数据范围从政府预算到学校表现分数等等。但是许多数据需要额外探索,有时很难找出哪个数据集是“正确的”版本。

网站地址

https://www.data.gov/

The World Bank

世界银行是一个向发展中国家提供贷款和咨询的全球发展组织,世界银行定期为发展中国家的项目提供资金,然后收集数据以监测这些项目的成功与否。

我们可以直接浏览世界银行的数据集,无需注册。但是在下载的时候,有时会出现问题,所以需要多点击几次下载才可以成功下载到数据

地址

http://data.worldbank.org/

/r/datasets

Reddit是一个流行的社区讨论网站,它有专门的地方来分享有趣的数据集。它被称为datasets subreddit,或/r/datasets。这些数据集的范围变化很大,因为它们都是用户提交的,所以有些数据集看起来有些奇妙。

地址

https://www.reddit.com/r/datasets/top/?sort=top&t=all

Academic Torrents

Academic Torrents是一个比较年轻的网站,旨在共享来自科学论文的数据集。因为它是一个较新的站点,所以很难判断最常见的数据集类型是什么样的。目前,它有大量缺乏上下文的有趣数据集。

地址

http://academictorrents.com/browse.php?cat=6

Github

这个就不多说了吧,不知道的可以拖出去了!

好了,今天的分享就到这里,喜欢就给个“在看”再走吧!

目录
打赏
0
0
0
0
22
分享
相关文章
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
101 71
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
102 73
Pandas数据应用:医疗数据分析
Pandas是Python中强大的数据操作和分析库,广泛应用于医疗数据分析。本文介绍了使用Pandas进行医疗数据分析的常见问题及解决方案,涵盖数据导入、预处理、清洗、转换、可视化等方面。通过解决文件路径错误、编码不匹配、缺失值处理、异常值识别、分类变量编码等问题,结合Matplotlib等工具实现数据可视化,并提供了解决常见报错的方法。掌握这些技巧可以提高医疗数据分析的效率和准确性。
42 22
数据集中存在大量的重复值,会对后续的数据分析和处理产生什么影响?
数据集中存在大量重复值可能会对后续的数据分析和处理产生多方面的负面影响
128 56
Pandas数据应用:股票数据分析
本文介绍了如何使用Pandas库进行股票数据分析。首先,通过pip安装并导入Pandas库。接着,从本地CSV文件读取股票数据,并解决常见的解析错误。然后,利用head()、info()等函数查看数据基本信息,进行数据清洗,处理缺失值和重复数据。再者,结合Matplotlib和Seaborn进行数据可视化,绘制收盘价折线图。最后,进行时间序列分析,设置日期索引、重采样和计算移动平均线。通过这些步骤,帮助读者掌握Pandas在股票数据分析中的应用。
40 5
常用电商商品数据API接口(item get)概述,数据分析以及上货
电商商品数据API接口(item get)是电商平台上用于提供商品详细信息的接口。这些接口允许开发者或系统以编程方式获取商品的详细信息,包括但不限于商品的标题、价格、库存、图片、销量、规格参数、用户评价等。这些信息对于电商业务来说至关重要,是商品数据分析、价格监控、上货策略制定等工作的基础。
ChatGPT在数据分析学习阶段的应用
ChatGPT在数据分析学习阶段的应用
54 6
如何理解数据分析及数据的预处理,分析建模,可视化
如何理解数据分析及数据的预处理,分析建模,可视化
72 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等