15个超级棒的外文免费数据集,学习数据分析不愁没有数据用了!

简介: 15个超级棒的外文免费数据集,学习数据分析不愁没有数据用了!


今天我们来介绍几个完全免费的数据集下载网站,相信大家一定能从中得到一些帮助!

不过因为都是国外的网站,那么某些网站使用起来当然需要一些“手段”啦,正所谓,八仙过海各显神通,怎么进入这些网站,就看自己的本事了!

FiveThirtyEight

FiveThirtyEight 是一个非常流行的互动新闻和体育网站,是由 Nate Silver 创办的。网站上有许多非常有趣的数据分析文章,可以给我们提供很多学习思路。

FiveThirtyEight 文章中使用的数据集可以在Github上在线获得

https://github.com/fivethirtyeight/data

以下是一些示例:

航空安全-包含来自各航空公司的事故信息。

美国天气历史-美国历史天气数据。

研究药物-美国谁在服用阿达拉的数据。

网站链接

http://fivethirtyeight.com/

BuzzFeed

BuzzFeed 最初是一家低质量文章的供应商,后来发展的很不错,其网站上也有很多比较不错的数据分析文章。

BuzzFeed使文章中使用的数据集在Github上可用

https://github.com/BuzzFeedNews

以下是一些示例:

联邦侦察机-包含用于国内监视的飞机的数据。

寨卡病毒-有关寨卡病毒爆发地理的数据。

枪支背景调查-数据背景调查的人试图购买枪支。

https://www.buzzfeed.com/

NASA

NASA 是一个由公共资助的政府组织,所以它的所有数据都是公开的。任何人都可以在网站下载与地球科学有关的数据集和与空间有关的数据集。

相关数据链接

https://earthdata.nasa.gov/

AWS Public Data sets

Amazon 在其 Amazon Web 服务平台上提供大型数据集,我们可以免费下载数据并在自己的计算机上使用它,当然是需要 AWS 账户的。

以下是一些示例:

googlebooks中的n-gram列表-来自大量书籍的常用词和词组。

普通爬网语料库-从超过50亿网页爬网数据。

陆地卫星图像-地球表面的中等分辨率卫星图像。

网站链接

https://aws.amazon.com/datasets/?_encoding=UTF8&jiveRedirect=1

Google Public Data sets

和亚马逊很像,谷歌也有云托管服务,称为谷歌云平台。

以下是一些示例:

USA名称-包含从1879年到2015年美国所有的社会保障名称申请。

Github活动-包含超过280万个公共Github存储库上的所有公共活动。

历史天气-1929年至2016年美国国家海洋和大气管理局9000个气象站的数据。

网站链接

https://cloud.google.com/bigquery/public-data/

Wikipedia

维基百科是一个免费的、在线社区编辑百科全书。维基百科包含了惊人的知识广度,包含了从奥斯曼-哈布斯堡战争到莱昂纳多-尼莫伊的各种内容。作为维基百科致力于提升知识的一部分,他们免费提供所有内容,并定期转存网站上所有文章。

数据下载地址

https://en.wikipedia.org/wiki/Wikipedia:Database_download

Kaggle

Kaggle是一个数据科学社区,主办机器学习竞赛。网站上有各种外部提供的有趣数据集,既有现场比赛,也有历史比赛。我们可以下载任何一项数据,但是必须注册Kaggle并接受比赛的服务条款。

数据下载地址

https://www.kaggle.com/datasets

UCI Machine Learning Repository

UCI机器学习库是web上最古老的数据源之一,因为数据集是由用户贡献的,所以具有不同级别的文档和清洁度,但绝大多数数据集都是干净的,可以应用于机器学习当中。可以把UCI作为寻找有趣数据集的第一站。

地址

https://archive.ics.uci.edu/ml/datasets.php

Quandl

Quandl是经济和金融数据的存储库,有些信息是免费的,但许多数据集需要付费,Quandl对于建立预测经济指标或股票价格的模型是很有用的。由于有大量可用的数据集,所以可以建立一个复杂的模型,使用许多数据集来预测另一个模型中的值。

地址

https://www.quandl.com/browse

data.world

data.world 将自己描述为“数据人的社交网络”,但可以更准确地描述为“数据的GitHub”。它是一个可以搜索、复制、分析和下载数据集的地方。此外,我们还可以将数据上载到data.world并利用它与其他人合作。

在相对较短的时间内,它已经成为一个'应该去'的地方获取数据,这绝对是一个值得多逛逛的网站

地址

https://www.data.world/

Data.gov

Data.gov是一个相对较新的网站,是美国政府开放。Data.gov可以从多个美国政府机构下载数据,数据范围从政府预算到学校表现分数等等。但是许多数据需要额外探索,有时很难找出哪个数据集是“正确的”版本。

网站地址

https://www.data.gov/

The World Bank

世界银行是一个向发展中国家提供贷款和咨询的全球发展组织,世界银行定期为发展中国家的项目提供资金,然后收集数据以监测这些项目的成功与否。

我们可以直接浏览世界银行的数据集,无需注册。但是在下载的时候,有时会出现问题,所以需要多点击几次下载才可以成功下载到数据

地址

http://data.worldbank.org/

/r/datasets

Reddit是一个流行的社区讨论网站,它有专门的地方来分享有趣的数据集。它被称为datasets subreddit,或/r/datasets。这些数据集的范围变化很大,因为它们都是用户提交的,所以有些数据集看起来有些奇妙。

地址

https://www.reddit.com/r/datasets/top/?sort=top&t=all

Academic Torrents

Academic Torrents是一个比较年轻的网站,旨在共享来自科学论文的数据集。因为它是一个较新的站点,所以很难判断最常见的数据集类型是什么样的。目前,它有大量缺乏上下文的有趣数据集。

地址

http://academictorrents.com/browse.php?cat=6

Github

这个就不多说了吧,不知道的可以拖出去了!

好了,今天的分享就到这里,喜欢就给个“在看”再走吧!

相关文章
|
26天前
|
数据挖掘 PyTorch TensorFlow
|
2月前
|
数据采集 DataWorks 数据挖掘
提升数据分析效率:DataWorks在企业级数据治理中的应用
【8月更文第25天】本文将探讨阿里巴巴云的DataWorks平台如何通过建立统一的数据标准、规范以及实现数据质量监控和元数据管理来提高企业的数据分析效率。我们将通过具体的案例研究和技术实践来展示DataWorks如何简化数据处理流程,减少成本,并加速业务决策。
194 54
|
25天前
|
机器学习/深度学习 数据挖掘 TensorFlow
🔍揭秘Python数据分析奥秘,TensorFlow助力解锁数据背后的亿万商机
【9月更文挑战第11天】在信息爆炸的时代,数据如沉睡的宝藏,等待发掘。Python以简洁的语法和丰富的库生态成为数据分析的首选,而TensorFlow则为深度学习赋能,助你洞察数据核心,解锁商机。通过Pandas库,我们可以轻松处理结构化数据,进行统计分析和可视化;TensorFlow则能构建复杂的神经网络模型,捕捉非线性关系,提升预测准确性。两者的结合,让你在商业竞争中脱颖而出,把握市场脉搏,释放数据的无限价值。以下是使用Pandas进行简单数据分析的示例:
32 5
|
2月前
|
存储 数据挖掘 数据处理
DataFrame探索之旅:如何一眼洞察数据本质,提升你的数据分析能力?
【8月更文挑战第22天】本文通过电商用户订单数据的案例,展示了如何使用Python的pandas库查看DataFrame信息。首先导入数据并使用`head()`, `columns`, `shape`, `describe()`, 和 `dtypes` 方法来快速概览数据的基本特征。接着,通过对数据进行分组操作计算每位顾客的平均订单金额,以此展示初步数据分析的过程。掌握这些技能对于高效的数据分析至关重要。
33 2
|
2月前
|
数据采集 机器学习/深度学习 算法
"揭秘数据质量自动化的秘密武器:机器学习模型如何精准捕捉数据中的‘隐形陷阱’,让你的数据分析无懈可击?"
【8月更文挑战第20天】随着大数据成为核心资源,数据质量直接影响机器学习模型的准确性和效果。传统的人工审查方法效率低且易错。本文介绍如何运用机器学习自动化评估数据质量,解决缺失值、异常值等问题,提升模型训练效率和预测准确性。通过Python和scikit-learn示例展示了异常值检测的过程,最后强调在自动化评估的同时结合人工审查的重要性。
57 2
|
26天前
|
机器学习/深度学习 数据挖掘 TensorFlow
从数据小白到AI专家:Python数据分析与TensorFlow/PyTorch深度学习的蜕变之路
【9月更文挑战第10天】从数据新手成长为AI专家,需先掌握Python基础语法,并学会使用NumPy和Pandas进行数据分析。接着,通过Matplotlib和Seaborn实现数据可视化,最后利用TensorFlow或PyTorch探索深度学习。这一过程涉及从数据清洗、可视化到构建神经网络的多个步骤,每一步都需不断实践与学习。借助Python的强大功能及各类库的支持,你能逐步解锁数据的深层价值。
46 0
|
2月前
|
数据采集 数据可视化 算法
GitHub星标68K!Python数据分析入门手册带你从数据获取到可视化
Python作为一门优秀的编程语言,近年来受到很多编程爱好者的青睐。一是因为Python本身具有简捷优美、易学易用的特点;二是由于互联网的飞速发展,我们正迎来大数据的时代,而Python 无论是在数据的采集与处理方面,还是在数据分析与可视化方面都有独特的优势。我们可以利用 Python 便捷地开展与数据相关的项目,以很低的学习成本快速完成项目的研究。
|
2月前
|
SQL 数据挖掘 Serverless
SQL 窗口函数简直太厉害啦!复杂数据分析的超强利器,带你轻松攻克数据难题,快来一探究竟!
【8月更文挑战第31天】在数据驱动时代,高效处理和分析大量数据至关重要。SQL窗口函数可对一组行操作并返回结果集,无需分组即可保留原始行信息。本文将介绍窗口函数的分类、应用场景及最佳实践,助您掌握这一强大工具。例如,在销售数据分析中,可使用窗口函数计算累计销售额和移动平均销售额,更好地理解业务趋势。
43 0
|
2月前
|
SQL 数据可视化 数据挖掘
SQL 在数据分析中简直太牛啦!从数据提取到可视化,带你领略强大数据库语言的神奇魅力!
【8月更文挑战第31天】在数据驱动时代,SQL(Structured Query Language)作为强大的数据库查询语言,在数据分析中扮演着关键角色。它不仅能够高效准确地提取所需数据,还能通过丰富的函数和操作符对数据进行清洗与转换,确保其适用于进一步分析。借助 SQL 的聚合、分组及排序功能,用户可以从多角度深入分析数据,为企业决策提供有力支持。尽管 SQL 本身不支持数据可视化,但其查询结果可轻松导出至 Excel、Python、R 等工具中进行可视化处理,帮助用户更直观地理解数据。掌握 SQL 可显著提升数据分析效率,助力挖掘数据价值。
39 0
|
2月前
|
数据采集 数据挖掘 数据处理
解锁Python数据分析新技能!Pandas实战学习,让你的数据处理能力瞬间飙升!
【8月更文挑战第22天】Python中的Pandas库简化了数据分析工作。本文通过分析一个金融公司的投资数据文件“investment_data.csv”,介绍了Pandas的基础及高级功能。首先读取并检查数据,包括显示前几行、列名、形状和数据类型。随后进行数据清洗,移除缺失值与重复项。接着转换日期格式,并计算投资收益。最后通过分组计算平均投资回报率,展示了Pandas在数据处理与分析中的强大能力。
37 0

热门文章

最新文章

下一篇
无影云桌面