不会这些,你成不了Hadoop高手!

本文涉及的产品
云原生网关 MSE Higress,422元/月
注册配置 MSE Nacos/ZooKeeper,118元/月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介:

第一堂课:大数据集群搭建葵花宝典

由浅入深,四步成“狮”

1)快速搞定伪分布Hadoop集群搭建

2)高可用的5节点Hadoop分布式集群搭建(Hadoop 2.6.0)

3)生产环境:CDH5高可用集群环境搭建

4)彩蛋:顺便搞定Storm 和 Spark集群环境

课程大纲

(一)搭建Hadoop伪分布集群,让WordCount飞起来

1、Vmware虚拟机的介绍

2、Vmware虚拟机的安装

3、Vmware虚拟机的配置

4、搭建Linux 虚拟机

5、Linux虚拟机的系统配置

6、Hadoop伪分布环境搭建,让WordCount飞起来

(二)手把手教你搭建5节点Hadoop分布式集群(HA)

1、集群规划及安装前准备

2、JDK安装配置

3、Zookeeper安装

4、HDFS安装配置(HA)

5、YARN安装配置(HA)

(三)搭建CDH5分布式集群环境(HA)

1、主机和软件规划

2、目录规划

3、SSH免密码登录

4、JDK安装

5、Zookeeper安装

6、HDFS安装前检查

7、HDFS安装简介

8、HDFS核心配置文件配置(HA)

9、文件系统初始化

10、HDFS安装系统验证

11、HDFS UI简单介绍HDFS shell操作

12、Hadoop源码安装方式之下载源代码

13、Hadoop源码安装方式之编译环境准备

14、Hadoop源码安装方式之hadoop编译

15、Yarn HA的原理和主机规划

16、YARN(HA)核心配置文件的配置和分发

17、YARN(HA)的启停

18、WordCount实战演练

(四)搭建Storm 分布式集群环境

1、本地模式

2、分布式模式

(五)搭建Spark 分布式集群环境(HA)

1、Spark Standalone分布式环境部署

2、Spark Job提交与运行

3、Spark Standalone HA的实现

4、Spark Standalone运行架构解析

5、Spark Standalone下运行实例程序

第二堂课:轻松构建企业级MapReduce项目

也许这是对新手来说再详细不过的一堂课

课程大纲

(一)Eclipse 构建普通MapReduce项目

1、JDK安装

2、Hadoop 插件安装

3、Hadoop 环境变量配置

4、构建普通的MapReduce项目并测试运行实例程序

(二)Eclipse 构建MapReduce Maven 项目

1、Maven 安装及环境变量配置

2、构建Maven项目

3、调试MapReduce程序

4、Maven管理多个MapReduce程序

5、Maven项目的打包、测试、部署运行

第三堂课:MapReduce高手进阶之Join算法

对热爱开发的技术人员来说,MR编程是小kiss,我们就不帮你了。

可Join算法经常会用到,就连很多老手也不能掌控自如

好吧,我们就带你彻底搞明白这个,让自己技高一筹

课程大纲

(一)MapReduce编程之Join算法

1、MapReduce实现Reduce Join操作

2、MapReduce实现Map Join操作

3、MapReduce实现Semi Join操作

4、MapReduce实现Reduce join + BloomFilter操作

第四堂课:Zookeeper从入门到实战

ZooKeeper是针对大型分布式系统的可靠协调系统。 Zookeeper的Fast Fail 和 Leader选举特性大大增强了分布式集群的稳定和健壮性,并且解决了Master/Slave模式的单点故障问题,所以越来越多的计算框架依赖Zookeeper系统,比如HBase、Storm、Spark、Flink等。

Zookeeper在分布式集群中的地位越来越重要,如果你对它不熟悉,你必须必须必须补上它!

课程大纲

(一)深入学习ZooKeeper 架构原理

1、ZooKeeper 是什么?

2、ZooKeeper特点

3、ZooKeeper 基本原理

4、ZooKeeper 写数据流程

5、ZooKeeper 应用场景

(二)ZooKeeper 分布式环境部署

1、单节点模式

2、伪分布式模式

3、分布式模式

4、配置观察者(ObServer),扩展系统,提高读取速度

(三)ZooKeeper 配置管理Hadoop集群

1、ZooKeeper 客户端设计(API介绍,Java Client开发)

2、ZooKeeper配置管理的案例开发

第五堂课:Hadoop、Spark源码编译

这个不解释,懂的人自然知道重要性

课程大纲

(一)Hadoop源码编译

1、检查并安装Gcc-c++

2、安装Maven

3、安装ProtocolBuffer

4、安装Cmake

5、安装Zlib

6、安装Openssl

7、安装Snappy

8、编译Hadoop

9、Hadoop本地库检测

10、Hadoop 配置Snappy压缩

(二)Spark源码编译

1、Spark 版本选择

2、在线安装Git(root 用户下)

3、创建一个目录克隆Spark源代码

4、切换Spark分支

5、安装JDK

6、安装Maven

7、编译spark


本文作者:佚名

来源:51CTO

相关文章
|
SQL 存储 分布式计算
hadoop的特点
hadoop的特点
|
3月前
|
分布式计算 资源调度 Hadoop
Hadoop 2.0 与 Hadoop 1.x 有何不同?
【8月更文挑战第12天】
68 4
|
分布式计算 资源调度 Hadoop
|
分布式计算 Java Hadoop
|
分布式计算 Java Hadoop
|
SQL 分布式计算 大数据
|
存储 分布式计算 大数据
|
JSON 分布式计算 Java

相关实验场景

更多