前 言
组织获得的数据量每一天都在成倍增加。现在组织可以存储大量信息在低成本平台上,例如Hadoop。
如今这些组织面临的难题是如何处理这些数据以及如何从这些数据中获取关键的见解。于是R应运而生。R是一个令人惊讶的工具,它是一个在数据中能够运行先进统计模型的单元,它将原始模型翻译成丰富多彩的图形和可视化视图,而且它有很多和数据科学相关的功能。
然而,R的一个主要缺点是它的可扩展性较差。R的核心技术引擎可以加工和处理非常有限的数据量。正因为在大数据处理中Hadoop十分流行,所以为了可扩展性,下一步符合逻辑的方法将是把R和Hadoop结合起来。
本书介绍了R和Hadoop,以及如何通过使用一个平台(如Hadoop)进行R的数据分析操作以实现其可扩展性。
出于这样一个目标,本书将适合广大范围的读者,包括数据统计者、数据科学家、数据架构师和任何正在寻找使用R和Hadoop来处理和分析大量信息的解决方案工程师。
在Hadoop上使用R将提供一个弹性的数据分析平台,其规模取决于所需分析的数据集大小。富有经验的程序员可以用R语言编写Map/Reduce模块,并用Hadoop的Map/Reduce并行处理机制运行它以识别数据集的模式。
目 录
第1章 R和Hadoop入门
1.1 安装R
1.2 安装RStudio
1.3 R语言的功能特征
1.4 Hadoop的安装
1.5 Hadoop的特点
1.6 HDFS和Ma)pReduce架构
1.7 Hadoop的子项目
1.8 小结
第2章 编写Hadoop MapReduce程序
2.1 MapReduce基础概念
2.2 Hadoop MapReduce技术简介
2.3 Hadoop MapReduce原理
2.4 编写Hadoop MapReduce示例程序
2.5 在R环境中编写Hadoop MapReduce程序的方式
2.6 小结
第3章 集成R和Hadoop
3.1 RHIPE
3.1.1 安装RHIPE
3.1.2 RHIPE架构
3.1.3 RHIPE实例
3.1.4 RHIPE参考函数
3.2 RHadoop
3.2.1 RHadoop架构
3.2.2 安装RHadoop
3.2.3 RHadoop案例
3.2.4 RHadoop参考函数
3.3 小结