《R与Hadoop大数据分析实战》一导读

简介:

image

前 言

组织获得的数据量每一天都在成倍增加。现在组织可以存储大量信息在低成本平台上,例如Hadoop。

如今这些组织面临的难题是如何处理这些数据以及如何从这些数据中获取关键的见解。于是R应运而生。R是一个令人惊讶的工具,它是一个在数据中能够运行先进统计模型的单元,它将原始模型翻译成丰富多彩的图形和可视化视图,而且它有很多和数据科学相关的功能。
然而,R的一个主要缺点是它的可扩展性较差。R的核心技术引擎可以加工和处理非常有限的数据量。正因为在大数据处理中Hadoop十分流行,所以为了可扩展性,下一步符合逻辑的方法将是把R和Hadoop结合起来。
本书介绍了R和Hadoop,以及如何通过使用一个平台(如Hadoop)进行R的数据分析操作以实现其可扩展性。
出于这样一个目标,本书将适合广大范围的读者,包括数据统计者、数据科学家、数据架构师和任何正在寻找使用R和Hadoop来处理和分析大量信息的解决方案工程师。
在Hadoop上使用R将提供一个弹性的数据分析平台,其规模取决于所需分析的数据集大小。富有经验的程序员可以用R语言编写Map/Reduce模块,并用Hadoop的Map/Reduce并行处理机制运行它以识别数据集的模式。

目 录

第1章 R和Hadoop入门
1.1 安装R
1.2 安装RStudio
1.3 R语言的功能特征
1.4 Hadoop的安装
1.5 Hadoop的特点
1.6 HDFS和Ma)pReduce架构
1.7 Hadoop的子项目
1.8 小结
第2章 编写Hadoop MapReduce程序
2.1 MapReduce基础概念
2.2 Hadoop MapReduce技术简介
2.3 Hadoop MapReduce原理
2.4 编写Hadoop MapReduce示例程序
2.5 在R环境中编写Hadoop MapReduce程序的方式
2.6 小结
第3章 集成R和Hadoop
3.1 RHIPE
3.1.1 安装RHIPE
3.1.2 RHIPE架构
3.1.3 RHIPE实例
3.1.4 RHIPE参考函数
3.2 RHadoop
3.2.1 RHadoop架构
3.2.2 安装RHadoop
3.2.3 RHadoop案例
3.2.4 RHadoop参考函数
3.3 小结

相关文章
|
SQL 分布式计算 Hadoop
大数据行业部署实战1:Hadoop伪分布式部署
大数据行业部署实战1:Hadoop伪分布式部署
498 0
|
7月前
|
分布式计算 Java 大数据
【大数据技术Hadoop+Spark】HDFS Shell常用命令及HDFS Java API详解及实战(超详细 附源码)
【大数据技术Hadoop+Spark】HDFS Shell常用命令及HDFS Java API详解及实战(超详细 附源码)
748 0
|
7月前
|
分布式计算 大数据 Scala
【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战(超详细 附源码)
【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战(超详细 附源码)
356 1
|
6月前
|
存储 分布式计算 Hadoop
Hadoop Distributed File System (HDFS): 概念、功能点及实战
【6月更文挑战第12天】Hadoop Distributed File System (HDFS) 是 Hadoop 生态系统中的核心组件之一。它设计用于在大规模集群环境中存储和管理海量数据,提供高吞吐量的数据访问和容错能力。
702 4
|
2月前
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(二)
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(二)
50 3
|
2月前
|
分布式计算 Java Hadoop
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(一)
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(一)
49 2
|
3月前
|
分布式计算 Hadoop Devops
Hadoop集群配置https实战案例
本文提供了一个实战案例,详细介绍了如何在Hadoop集群中配置HTTPS,包括生成私钥和证书文件、配置keystore和truststore、修改hdfs-site.xml和ssl-client.xml文件,以及重启Hadoop集群的步骤,并提供了一些常见问题的故障排除方法。
94 3
|
3月前
|
分布式计算 监控 Hadoop
监控Hadoop集群实战篇
介绍了监控Hadoop集群的方法,包括监控Linux服务器、Hadoop指标、使用Ganglia监控Hadoop集群、Hadoop日志记录、通过Hadoop的Web UI进行监控以及其他Hadoop组件的监控,并提供了相关监控工具和资源的推荐阅读链接。
104 2
|
4月前
|
资源调度 分布式计算 监控
【揭秘Hadoop YARN背后的奥秘!】从零开始,带你深入了解YARN资源管理框架的核心架构与实战应用!
【8月更文挑战第24天】Hadoop YARN(Yet Another Resource Negotiator)是Hadoop生态系统中的资源管理器,为Hadoop集群上的应用提供统一的资源管理和调度框架。YARN通过ResourceManager、NodeManager和ApplicationMaster三大核心组件实现高效集群资源利用及多框架支持。本文剖析YARN架构及组件工作原理,并通过示例代码展示如何运行简单的MapReduce任务,帮助读者深入了解YARN机制及其在大数据处理中的应用价值。
111 0
|
7月前
|
分布式计算 数据可视化 Hadoop
大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现
大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现