《Hadoop MapReduce实战手册》一导读

简介: 本书目标是帮助读者学会处理大型的复杂数据集。本书虽从简单的例子开始,但仍然可以看到深入的内容。这是一本简单的一站式指南,传授如何完成复杂的事情。它以一种简单而直接的方式呈现了90个攻略,给出了一步步的指导和真实环境的应用示例。


q1

前 言

Hadoop MapReduce实战手册
本书目标是帮助读者学会处理大型的复杂数据集。本书虽从简单的例子开始,但仍然可以看到深入的内容。这是一本简单的一站式指南,传授如何完成复杂的事情。它以一种简单而直接的方式呈现了90个攻略,给出了一步步的指导和真实环境的应用示例。

本产品包括在Apache软件基金会(http://www.apache.org/)开发的软件。

本书涵盖的内容
第1章解释了如何以单点模式以及集群模式安装和运行Hadoop。

第2章介绍了一套高级的HDFS操作,在处理大规模数据时,无论是用Hadoop MapReduce还是用非MapReduce用例,这些操作都很有用。

第3章解释了如何改变Hadoop部署的配置和安全性,以及如何调试。

第4章介绍了几种高级的Hadoop MapReduce特性,这些特性将有助于你开发高度定制化的、高效的MapReduce应用程序。

第5章介绍了其他与Hadoop相关的项目,如HBase、Hive和Pig。

第6章解释了如何使用Hadoop来计算基本的统计分析信息。

第7章介绍几种可以与Apache Hadoop协同使用的工具和技术,让你可以进行大规模的搜索和索引。

第8章介绍了如果使用Hadoop实现复杂的算法,如聚类、推荐和关系发现。

第9章解释了如何使用Hadoop和Mahout处理海量文本数据集,以及如何使用Hadoop实现数据预处理和加载操作。

第10章解释了如何使用亚马逊弹性MapReduce(Elastic MapReduce,EMR)和Apache Whirr在云基础设施上部署和执行Hadoop MapReduce、Pig、Hive和HBase计算。

目 录

第1章 搭建Hadoop并在集群中运行
1.1 简介
1.2 在你的机器上安装Hadoop
1.3 写WordCountMapReduce示例程序,打包并使用独立的Hadoop运行它
1.4 给WordCount MapReduce程序增加combiner步骤
1.5 安装HDFS
1.6 使用HDFS监控UI
1.7 HDFS的基本命令行文件操作
1.8 在分布式集群环境中设置Hadoop
1.9 在分布式集群环境中运行WordCount程序
1.10 使用MapReduce监控UI
第2章 HDFS进阶
2.1 简介
2.2 HDFS基准测试
2.3 添加一个新的DataNode
2.4 DataNode下架
2.5 使用多个磁盘/卷以及限制HDFS的磁盘使用情况
2.6 设置HDFS块大小
2.7 设置文件冗余因子
2.8 使用HDFS的Java API
2.9 使用HDFS的C API(libhdfs)
2.10 挂载HDFS(Fuse-DFS)
2.11 在HDFS中合并文件
第3章 高级Hadoop MapReduce运维
第4章 开发复杂的Hadoop MapReduce应用程序
第5章 Hadoop生态系统
第6章 分析
第7章 搜索和索引
第8章 聚类、推荐和关系发现
第9章 海量文本数据处理
第10章 云端部署——在云上使用Hadoop

相关文章
|
5月前
|
分布式计算 Hadoop
Hadoop系列 mapreduce 原理分析
Hadoop系列 mapreduce 原理分析
40 1
|
5月前
|
存储 分布式计算 负载均衡
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
64 0
|
24天前
|
存储 分布式计算 监控
Hadoop【基础知识 01+02】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
73 2
|
24天前
|
分布式计算 监控 Hadoop
Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
57 0
|
4月前
|
存储 分布式计算 监控
Hadoop的JobTracker和TaskTracker在MapReduce中的作用是什么?
Hadoop的JobTracker和TaskTracker在MapReduce中的作用是什么?
56 0
|
5月前
|
存储 SQL 分布式计算
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
277 0
|
5月前
|
存储 分布式计算 资源调度
干翻Hadoop系列文章【03】:MapReduce概念详解
干翻Hadoop系列文章【03】:MapReduce概念详解
|
5月前
|
存储 分布式计算 搜索推荐
【大数据技术Hadoop+Spark】MapReduce之单词计数和倒排索引实战(附源码和数据集 超详细)
【大数据技术Hadoop+Spark】MapReduce之单词计数和倒排索引实战(附源码和数据集 超详细)
53 0
|
24天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
49 2
|
24天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

相关实验场景

更多