《R语言数据分析》——2.4　从其他在线来源获取数据-阿里云开发者社区

《R语言数据分析》——2.4　从其他在线来源获取数据

2017-05-02 1817

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章出版社《R语言数据分析》一书中的第2章，第2.4节，作者盖尔盖伊·道罗齐（Gergely Daróczi），潘怡　译，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.4　从其他在线来源获取数据

尽管readHTMLTable非常实用，但某些时候数据不是以结构化格式存放在表格中，更可能就是以HTML表形式存储。我们首先访问http://cran.r-project.org/web/views/WebTechnologies.html 来了解一下R包在相应的CRAN任务描述中列出的数据格式类型，如下图所示：

QQ_20170525112651

在这幅图中，我们看到了一个HTML列表，列出了包的名称，以及指向CRAN或GitHub的URL。要处理这样的HTML，我们首先要对HTML源有所了解才能对分析方法做确定。读者可以很容易地在Chrome或Firefox浏览器中完成这个任务：右键点击目录顶部的CRAN包标题，选择Inspect Element命令，将看到如下输出：

QQ_20170525112654

此时，我们已经得到了一个以ul（无序表）的HTML标签列出的相关R包，在标签h3后面就包括了CRAN packages字符串。

简而言之：

我们需要解析这个HTML文件

在search项找到第三级头

从其后的未排序的HTML表中获得所有表元素

这些工作也可以通过XML路径语言来完成，该语言拥有一种特殊的语法能通过查询来选择在XML/HTML文档中的节点。

另外一方面，由于数据获取经常受限于数据拥有者给定的版权范围，因此必须要首先确认这些可能的数据资源其相关的法律条文、使用条件等内容。除了法律事务，从数据供应商的技术角度去考虑数据的获取和抓取问题也是比较明智的，如果你在没有和管理员提前沟通的情况下对网站进行频繁的查询，则很有可能会被认为是在进行某种网络攻击，同时会给服务器带来不必要的负担。为了简化数据获取的问题，记得给查询设置合适的频率，例如，最少每个查询之间要相隔2秒，最好的方法则是从站点的robot.txt文件中了解Crawl-delay的大小，一般该文件会被放置在根目录下。大多数数据供应商也会对数据抓取给出一些指导意见，我们应该确保了解清楚关于下载速率的限制和频率。

某些时候，我们也有可能很幸运地找到一些现成的XPath筛选代码，那么就可以直接使用自带的R包，通过Web服务和主页下载数据。

《R语言数据分析》——2.4　从其他在线来源获取数据

本节书摘来自华章出版社《R语言数据分析》一书中的第2章，第2.4节，作者盖尔盖伊·道罗齐（Gergely Daróczi），潘怡　译，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.4　从其他在线来源获取数据

更多有关R驱动的例子，请参考本书第4章，以及Springer.出版的Deborah Nolan和语句Duncan Temple Lang编著的《Use R！》系列。更多详细内容，请参考本书附录部分。

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《R语言数据分析》——2.4 从其他在线来源获取数据

本节书摘来自华章出版社《R语言数据分析》一书中的第2章，第2.4节，作者盖尔盖伊·道罗齐（Gergely Daróczi），潘怡 译，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.4 从其他在线来源获取数据

更多有关R驱动的例子，请参考本书第4章，以及Springer.出版的Deborah Nolan和语句Duncan Temple Lang编著的《Use R！》系列。更多详细内容，请参考本书附录部分。

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《R语言数据分析》——2.4　从其他在线来源获取数据

本节书摘来自华章出版社《R语言数据分析》一书中的第2章，第2.4节，作者盖尔盖伊·道罗齐（Gergely Daróczi），潘怡　译，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.4　从其他在线来源获取数据