本节书摘来自华章出版社《R与Hadoop大数据分析实战》一书中的第1章,作者 (印)Vignesh Prajapati,更多章节内容可以访问云栖社区“华章计算机”公众号查看
第1章 R和Hadoop入门
第1章讲述了几个与R和Hadoop基本知识相关的主题,包括:
R的安装、功能和数据建模
Hadoop的安装、特征和组成部分
前言已介绍了R和Hadoop。本章将重点关注了解并使用这两种技术。到目前为止,R主要用于统计分析,但由于功能和程序包越来越多,在其他一些领域内,它也很受欢迎,例如机器学习、可视化和数据操作。R不能加载所有数据(大数据)到机器内存。所以,可以选择Hadoop把数据用作大数据加载。不是所有的算法都能在Hadoop中运行,而且在一般情况下,这些算法并不属于R算法。尽管如此,使用R语言进行分析还是在某些方面与大数据相关。为了分析数据集,R将这些数据集加载到内存中,如果数据集很大,它会因出现意外而加载失败,这些意外如“无法分配大小为x的矢量”。因此,为了处理大数据集,R的处理能力可以通过与Hadoop集群结合而大大提高。Hadoop是时下非常流行的框架,它能提供这样并行的处理能力。因此,我们可以通过使用R算法或Hadoop集群的分析处理过程完成工作。
设想有这样一个集合化的RHadoop系统:R将通过如数据加载、探索、分析和可视化等原始功能来进行数据分析,同时Hadoop将采取并行数据存储并对分布式数据进行计算。
在具有价格优势的大数据技术出现之前,分析通常是在一台机器的有限的数据集上运行。先进的机器学习算法在应用到大型数据集中时能够高效运作,条件是其能够与运用分布式数据存储系统进行数据存储和加工的大型数据集群结合。下一节将介绍如何在不同的操作系统中安装R和Hadoop及如何连接R和Hadoop。