大家都是在哪些网站找数据?

简介: 大家都是在哪些网站找数据?

简介

对于统计专业的学生/学者,除了对统计理论/方法的学习之外,我们也应该有产生和获取数据的能力。而不能闭门造车,仅仅做一些理论的内容。小编认为更应该从实际出发(数据出发),观察数据中存在的问题,进而使用一些统计理论解决问题。

上面的话主要从统计大咖们的讲座中受到启发。于是,我也开始以这种思维进行科研和学习。

下面分享一些,自己“存”的数据以及可以获得数据的开源网站。

GitHub——Awesome Public Datasets[1]

该仓库收藏量高达 51k,可想而知它的影响力有多大了吧。内部包含各个领域的开源数据。目录可见下面照片:



小编暂时还没有探索这么多的数据集。有兴趣的读者可以自行探索~

Kaggle——datasets[2]

Kaggle 中给了很多开源的数据集,并且有很多数据集都被人探索过,也会分析一些分析代码。读者可以根据大佬们的代码,逐步实现/学习。

类似的数据竞赛网站还包括:DataCastle[3]天池[4]Datafountain[5]等。



UCI——数据仓库[6]

该网站目前维护了 622 个经典的机器学习、数据挖掘数据集,包含分类、聚类、回归等问题下的多个数据集(截止今天)。



博客——数据科学的100个开源数据集[7]

这篇博客给出了数据科学开源的 100 个数据集,感兴趣也可以看看。



NASA——Open Data[8]

小编的研究方向偏工业工程,这里推荐下 NASA 的网站,里面包含了很多工业数据集。很多研究都是基于这些数据集进行的。


小编有话说

这里小编只是简单罗列了下,可以获取数据的一些网站。当然你也可以通过其他方式获得数据,例如:国家数据[9]世界银行公开数据[10]中国统计信息网[11]国家统计局[12]世界银行[13]WTO[14]美国政府开放数据[15]等。

知乎上也有类似问题与回答[16],可供参考。



当然不同领域可能会有自己的数据库/网站等。如果读者愿意分享出来,欢迎文末留言,让信息开源,共享给更多人吧~

参考资料

[1]

Awesome Public Datasets: https://github.com/awesomedata/awesome-public-datasets

[2]

datasets: https://www.kaggle.com/datasets

[3]

DataCastle: https://www.datacastle.cn/index.html

[4]

天池: https://tianchi.aliyun.com/

[5]

Datafountain: https://www.datafountain.cn/

[6]

数据仓库: https://archive.ics.uci.edu/ml/datasets.php

[7]

数据科学的100个开源数据集: https://medium.com/analytics-vidhya/top-100-open-source-datasets-for-data-science-cd5a8d67cc3d

[8]

Open Data: https://data.nasa.gov/browse

[9]

国家数据: http://data.stats.gov.cn

[10]

世界银行公开数据: http://data.worldbank.org.cn

[11]

中国统计信息网: https://www.cnstats.org/

[12]

国家统计局: stats.gov.cn/

[13]

世界银行: https://databank.worldbank.org/home.aspx

[14]

WTO: http://stat.wto.org

[15]

美国政府开放数据: http://Data.gov

[16]

问题与回答: https://www.zhihu.com/question/27692329

目录
相关文章
|
1月前
|
Linux 网络安全 数据库
收集站点信息:第三方网站查询(附链接)
收集站点信息:第三方网站查询(附链接)
28 0
|
1月前
|
数据采集 安全 网络协议
收集子域名信息(二):第三方网站查询
收集子域名信息(二):第三方网站查询
19 1
|
6月前
|
缓存 NoSQL 数据库
40分布式电商项目 - 网站首页(缓存广告数据)
40分布式电商项目 - 网站首页(缓存广告数据)
32 0
|
数据采集 机器学习/深度学习 JavaScript
网站反爬方案分析
网站反爬方案分析
678 0
|
安全
网站快照收录被劫持跳转怎么办
作为站长,因为我们做网站经常会遇到各种各类的一些困难,比如说黑客入侵,还有就是程序出错, bug和漏洞就会导致网站意想不到的损失。我做网站差不多将近5年了,这两天遇到一个事情我非常难受,我问了好多同行,别人也说不知道,大概意思就是说我们以前如果网站被入侵的话,一般都会劫持你的网站收录和跳转,他一般会搜索关键词,然后点击你的网站,然后跳转到其他的网站页面,还有很明显的就是说你的百度快照标题跟描述都被篡改了,因为它要劫持你的流量,然后导致你的核心关键词,然后排名全部掉没,所以说给网站造成很大的伤害。
147 0
网站快照收录被劫持跳转怎么办
|
安全 搜索推荐 JavaScript
网站快照收录的内容不一样被攻击篡改了
当我们在搜索引擎中搜索时,结果页面上会出现网页标题、描述等内容,我们称之为搜索引擎快照。通常快照的内容与点击搜索结果打开的页面内容一致,但偶尔快照与真实页面内容不一致。原因是什么?首先,我们对快照做一个简单的了解,很多网站的企业或站长都对百度的快照的理解有基础,那就是一旦有了快照收录才能让网站在搜索关键词中有排名。以百度为例。当我们在百度搜索某个关键词时,往往会有两种结果,一种是广告,另一种是百度快照。我们把广告竞价变成SEM,把快照优化成SEO。我们常说的搜索引擎优化其实就是快照优化。是指通过人工网站架构、程序优化、内链、外链等一系列技术手段,将网站优化到自然排名。
175 0
|
存储 运维 安全
网站安全之应该如何安全地储存用户数据?
这几天AcFun数据库泄露的消息一大早就沸沸扬扬地传开了,所幸从AcFun的公告里可以看出泄露的用户密码均经过「加密」(实际上指哈希),所以我们仍然是安全的。
144 0
网站安全之应该如何安全地储存用户数据?
|
索引 UED 开发者
移动网站内容和电脑端内容不一样会影响网站排名吗?
移动优先与桌面内容:它是否需要相同? 欢迎来到排名第一SEO!以下是今天的问题:我们应该为移动和桌面设置相同的内容还是不同的内容? 相同。下一个问题? 好吧,开玩笑,这可能是一个简单的回应。让我详细说明一下。
857 0
|
Web App开发 BI UED
网站访问数据统计
网站访问数据统计
2763 0