《数据科学:R语言实现》——2.2 下载公开数据

简介:

本节书摘来自华章出版社《数据科学:R语言实现》一 书中的第2章,第2.2节,作者:R for Data Science Cookbook 丘祐玮(David Chiu),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.2 下载公开数据

在进行数据分析之前,一项基础工作是收集高质量的有意义的数据。一个重要的数据来源是公开数据集。它们通常经过挑选和整理,并允许公众自由使用。大多数公开数据以文本格式或者API的形式发布在线上。这里我们会介绍如何使用函数download.file下载文本格式的公开数据文件。
准备工作
在本教程中,你需要给开发环境安装R,同时确保计算机可以访问互联网。
实现步骤
执行下列步骤,从互联网上下载公开数据。
1.访问finance.yahoo.com/q/hp?s=%5EGSPC+Historical+Prices查看雅虎财经下的标普500历史价格,如图1所示。

screenshot
2.向下滚动到页面底部,右击并复制Download to Spreadsheet中的链接,如图2所示。

screenshot

screenshot

运行原理
在本教程中,我们展示了如何使用download.file下载文件。首先,我们浏览雅虎财经,查看标普500历史价格。在页面底部,我发现了带有前缀 http:// 的URL链接。URL 前缀代表了超文本传输协议(Hypertext Transfer Protocol,HTTP),其支持互联网上的信息发布和接收。因此,我们可以使用链接地址,通过download.file请求远程服务器。最后我们可以生成链接请求,并把远程文件保存在本地目录中。
更多技能
除了使用函数download.file下载文件,我们也可以使用RCurl下载带有HTTP URL或者HTTPS URL前缀的文件。
1.首先,访问nycopendata.socrata.com/Social-Services/NYC-Wi-Fi-Hotspot-Locations/a9we-mtpn?,查看纽约市公开数据中的Wi-Fi热点位置文件,如图3所示。

screenshot

2.接着,单击Export找到CSV下载链接,如图4所示。
3.然后安装加载RCurl程序包:

screenshot

相关文章
|
10天前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
|
10天前
|
数据采集 数据可视化
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
|
10天前
|
移动开发 数据可视化
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
|
10天前
|
机器学习/深度学习 人工智能 数据可视化
【视频】R语言支持向量回归SVR预测水位实例讲解|附代码数据
【视频】R语言支持向量回归SVR预测水位实例讲解|附代码数据
|
10天前
|
机器学习/深度学习 数据可视化
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
|
10天前
|
机器学习/深度学习 数据采集 算法
数据分享|R语言机器学习预测案例合集:众筹平台、机票折扣、糖尿病患者、员工满意度
数据分享|R语言机器学习预测案例合集:众筹平台、机票折扣、糖尿病患者、员工满意度
|
10天前
|
数据可视化 数据挖掘 索引
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码2
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码
|
10天前
|
存储 数据可视化 数据挖掘
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码1
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码
|
10天前
|
数据可视化
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码2
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码
|
10天前
|
数据可视化 数据挖掘
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码1
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码

热门文章

最新文章