15个超级棒的外文免费数据集,学习数据分析不愁没有数据用了!

简介: 15个超级棒的外文免费数据集,学习数据分析不愁没有数据用了!


今天我们来介绍几个完全免费的数据集下载网站,相信大家一定能从中得到一些帮助!

不过因为都是国外的网站,那么某些网站使用起来当然需要一些“手段”啦,正所谓,八仙过海各显神通,怎么进入这些网站,就看自己的本事了!

FiveThirtyEight

FiveThirtyEight 是一个非常流行的互动新闻和体育网站,是由 Nate Silver 创办的。网站上有许多非常有趣的数据分析文章,可以给我们提供很多学习思路。

FiveThirtyEight 文章中使用的数据集可以在Github上在线获得

https://github.com/fivethirtyeight/data

以下是一些示例:

航空安全-包含来自各航空公司的事故信息。

美国天气历史-美国历史天气数据。

研究药物-美国谁在服用阿达拉的数据。

网站链接

http://fivethirtyeight.com/

BuzzFeed

BuzzFeed 最初是一家低质量文章的供应商,后来发展的很不错,其网站上也有很多比较不错的数据分析文章。

BuzzFeed使文章中使用的数据集在Github上可用

https://github.com/BuzzFeedNews

以下是一些示例:

联邦侦察机-包含用于国内监视的飞机的数据。

寨卡病毒-有关寨卡病毒爆发地理的数据。

枪支背景调查-数据背景调查的人试图购买枪支。

https://www.buzzfeed.com/

NASA

NASA 是一个由公共资助的政府组织,所以它的所有数据都是公开的。任何人都可以在网站下载与地球科学有关的数据集和与空间有关的数据集。

相关数据链接

https://earthdata.nasa.gov/

AWS Public Data sets

Amazon 在其 Amazon Web 服务平台上提供大型数据集,我们可以免费下载数据并在自己的计算机上使用它,当然是需要 AWS 账户的。

以下是一些示例:

googlebooks中的n-gram列表-来自大量书籍的常用词和词组。

普通爬网语料库-从超过50亿网页爬网数据。

陆地卫星图像-地球表面的中等分辨率卫星图像。

网站链接

https://aws.amazon.com/datasets/?_encoding=UTF8&jiveRedirect=1

Google Public Data sets

和亚马逊很像,谷歌也有云托管服务,称为谷歌云平台。

以下是一些示例:

USA名称-包含从1879年到2015年美国所有的社会保障名称申请。

Github活动-包含超过280万个公共Github存储库上的所有公共活动。

历史天气-1929年至2016年美国国家海洋和大气管理局9000个气象站的数据。

网站链接

https://cloud.google.com/bigquery/public-data/

Wikipedia

维基百科是一个免费的、在线社区编辑百科全书。维基百科包含了惊人的知识广度,包含了从奥斯曼-哈布斯堡战争到莱昂纳多-尼莫伊的各种内容。作为维基百科致力于提升知识的一部分,他们免费提供所有内容,并定期转存网站上所有文章。

数据下载地址

https://en.wikipedia.org/wiki/Wikipedia:Database_download

Kaggle

Kaggle是一个数据科学社区,主办机器学习竞赛。网站上有各种外部提供的有趣数据集,既有现场比赛,也有历史比赛。我们可以下载任何一项数据,但是必须注册Kaggle并接受比赛的服务条款。

数据下载地址

https://www.kaggle.com/datasets

UCI Machine Learning Repository

UCI机器学习库是web上最古老的数据源之一,因为数据集是由用户贡献的,所以具有不同级别的文档和清洁度,但绝大多数数据集都是干净的,可以应用于机器学习当中。可以把UCI作为寻找有趣数据集的第一站。

地址

https://archive.ics.uci.edu/ml/datasets.php

Quandl

Quandl是经济和金融数据的存储库,有些信息是免费的,但许多数据集需要付费,Quandl对于建立预测经济指标或股票价格的模型是很有用的。由于有大量可用的数据集,所以可以建立一个复杂的模型,使用许多数据集来预测另一个模型中的值。

地址

https://www.quandl.com/browse

data.world

data.world 将自己描述为“数据人的社交网络”,但可以更准确地描述为“数据的GitHub”。它是一个可以搜索、复制、分析和下载数据集的地方。此外,我们还可以将数据上载到data.world并利用它与其他人合作。

在相对较短的时间内,它已经成为一个'应该去'的地方获取数据,这绝对是一个值得多逛逛的网站

地址

https://www.data.world/

Data.gov

Data.gov是一个相对较新的网站,是美国政府开放。Data.gov可以从多个美国政府机构下载数据,数据范围从政府预算到学校表现分数等等。但是许多数据需要额外探索,有时很难找出哪个数据集是“正确的”版本。

网站地址

https://www.data.gov/

The World Bank

世界银行是一个向发展中国家提供贷款和咨询的全球发展组织,世界银行定期为发展中国家的项目提供资金,然后收集数据以监测这些项目的成功与否。

我们可以直接浏览世界银行的数据集,无需注册。但是在下载的时候,有时会出现问题,所以需要多点击几次下载才可以成功下载到数据

地址

http://data.worldbank.org/

/r/datasets

Reddit是一个流行的社区讨论网站,它有专门的地方来分享有趣的数据集。它被称为datasets subreddit,或/r/datasets。这些数据集的范围变化很大,因为它们都是用户提交的,所以有些数据集看起来有些奇妙。

地址

https://www.reddit.com/r/datasets/top/?sort=top&t=all

Academic Torrents

Academic Torrents是一个比较年轻的网站,旨在共享来自科学论文的数据集。因为它是一个较新的站点,所以很难判断最常见的数据集类型是什么样的。目前,它有大量缺乏上下文的有趣数据集。

地址

http://academictorrents.com/browse.php?cat=6

Github

这个就不多说了吧,不知道的可以拖出去了!

好了,今天的分享就到这里,喜欢就给个“在看”再走吧!

相关文章
|
18天前
|
数据采集 数据可视化 数据挖掘
多维数据分析:使用Pandas进行复杂的数据操作和聚合
【4月更文挑战第12天】Pandas是Python的强大数据分析库,提供DataFrame数据结构进行多维数据处理。本文介绍了使用Pandas进行多维数据分析的流程:1) 导入数据(如CSV、Excel);2) 数据预处理,包括缺失值处理和类型转换;3) 数据探索,利用describe()、hist()、plot()等进行统计和可视化;4) 数据操作,如筛选、排序和分组;5) 数据聚合,通过groupby()和agg()进行计算。文中还给出了电商数据分析的案例,展示Pandas在实际应用中的价值。
|
23天前
|
人工智能 监控 数据可视化
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】
|
2月前
|
数据采集 机器学习/深度学习 数据可视化
深入学习NumPy库在数据分析中的应用场景
深入学习NumPy库在数据分析中的应用场景
|
2月前
|
自然语言处理 小程序 数据挖掘
数据分析实战-Python实现博客评论数据的情感分析
数据分析实战-Python实现博客评论数据的情感分析
118 0
|
3月前
|
数据采集 数据挖掘 API
主流电商平台数据采集API接口|【Python爬虫+数据分析】采集电商平台数据信息采集
随着电商平台的兴起,越来越多的人开始在网上购物。而对于电商平台来说,商品信息、价格、评论等数据是非常重要的。因此,抓取电商平台的商品信息、价格、评论等数据成为了一项非常有价值的工作。本文将介绍如何使用Python编写爬虫程序,抓取电商平台的商品信息、价格、评论等数据。 当然,如果是电商企业,跨境电商企业,ERP系统搭建,我们经常需要采集的平台多,数据量大,要求数据稳定供应,有并发需求,那就需要通过接入电商API数据采集接口,封装好的数据采集接口更方便稳定高效数据采集。
|
11天前
|
数据可视化 数据挖掘 Linux
如何在Linux部署DataEase数据分析服务并实现无公网IP远程分析内网数据信息
如何在Linux部署DataEase数据分析服务并实现无公网IP远程分析内网数据信息
|
15天前
|
数据挖掘 定位技术
基于出租车GPS轨迹数据的研究:出租车行程的数据分析
基于出租车GPS轨迹数据的研究:出租车行程的数据分析
23 0
|
16天前
|
机器学习/深度学习 数据采集 数据挖掘
Python 的科学计算和数据分析: 解释什么是数据规整(Data Wrangling)?
【4月更文挑战第15天】数据规整是将原始数据转化为适合分析和建模的格式的关键步骤,涉及缺失值处理(删除、填充、插值)、异常值检测与处理、数据类型转换、重采样、数据合并、特征选择和特征变换等任务。这些预处理步骤确保数据质量和准确性,为后续的数据分析和机器学习模型构建奠定基础。
19 4
|
27天前
|
存储 机器学习/深度学习 数据采集
数据分析师如何处理数据以进行分析?
【4月更文挑战第4天】数据分析师如何处理数据以进行分析?
20 9
|
28天前
|
人工智能 监控 数据可视化
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】