基于Cloudera Manager 5和CDH5(版本5.3.3)的Hadoop集群安装

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS PostgreSQL,集群系列 2核4GB
简介:

一、Cloudera Manager/CDH5

1、关于cloudera manager和CDH是什么,这里不做详细介绍了。有官网和百科介绍。

附上官网地址:cloudera manager

2、官网的安装指南

官方文档提供了三种安装方式:在线自动安装/手动安装包安装/手动使用cloudera manager管理安装

此处使用第三种方式安装hadoop集群。


二、环境规划

1、系统:CentOS 6.4_x86

 master:4G内存,硬盘尽量大容量

 slave1:2G内存,硬盘尽量大容量

 slave2:2G内存,硬盘尽量大容量

2、Cloudera Manager 5.3.3

3、CDH 5.3.3

安装包下载:

下载软件包:

  1. CDH-5.3.3-1.cdh5.3.3.p0.5-el6.parcel

  2. CDH-5.3.3-1.cdh5.3.3.p0.5-el6.parcel.sha1

  3. manifest.json


三、系统环境准备工作

  • 此次执行权限均为root用户

  • 所有的机器都必须ssh互信模式

  • 修改主机名使用hosts文件或者DNS服务器

  • 关闭iptables和selinux

  • 卸载系统自带的openjdk,安装oracle的jdk

  • master节点安装mysql

  • 所有节点的时间必须同步(ntp服务器或其他方法)

  • 修改所有节点的内核参数

    i. echo 0 > /proc/sys/vm/swappiness

    ii.echo never > /sys/kernel/mm/redhat_transparent_hugepage/defrag


四、正式开始安装

1、cloudera manager默认的目录是在/opt下,解压到/opt目录下。

1
2
3
4
5
6
# tar xf cloudera-manager-el6-cm5.3.3_x86_64.tar.gz -C /opt/
# ls /opt/
cloudera  cm - 5.3 . 3
#
# 安装mysql-connector-java
# yum -y install mysql-connector-java

2、初始化数据库

1
2
# /opt/cm-5.3.3/share/cmf/schema/scm_prepare_database.sh mysql cm -hlocalhost -uroot -p123456 --scm-host localhost scm scm scm
# mysql -uroot -p123456 -e "show databases;"    查看下cm数据库是否创建成功

3、复制数据到其他节点

1
2
3
4
5
6
7
8
# 修改配置文件server_host为master节点的主机名
# grep server_host /opt/cm-5.3.3/etc/cloudera-scm-agent/config.ini
     server_host = master
# scp -rp /opt/cm-5.3.3 slave1:/opt/
# scp -rp /opt/cm-5.3.3 slave2:/opt/
#
# 每个节点创建系统用户
# useradd --system --home=/opt/cm-5.3.3/run/cloudera-scm-server --no-create-home --shell=/bin/false --comment "cloudera scm user" cloudera-scm

4、数据库的配置

1
2
3
4
5
6
# hive
# create database hive DEFAULT CHARSET utf8 COLLATE utf8_general_ci;
# active monitor
# create database amon DEFAULT CHARSET utf8 COLLATE utf8_general_ci;
# 授权master主机
# grant all on *.* to 'root'@'master' identified by 'PASSWD';

5、准备parcels安装包到/opt/cloudera/parcel-repo/

1
2
3
4
5
6
7
8
9
10
11
# ls /opt/cloudera/parcel-repo/
CDH - 5.3 . 3 - 1.cdh5 . 3.3 .p0. 5 - el6.parcel  CDH - 5.3 . 3 - 1.cdh5 . 3.3 .p0. 5 - el6.parcel.sha  manifest.json
# 注意:CDH-5.3.3-1.cdh5.3.3.p0.5-el6.parcel.sha下载后的文件重命名的
#
# 启动master节点的server和agent脚本
# /opt/cm-5.3.3/etc/init.d/cloudera-scm-agent start
# /opt/cm-5.3.3/etc/init.d/cloudera-scm-server start
# server端口启动较慢
#
# 启动其他所有节点的agent脚本
# /opt/cm-5.3.3/etc/init.d/cloudera-scm-agent start


五、CDH 5安装配置

1、访问http://master-ip:7180端口开始安装

wKiom1VAYYDjBCXpAAC5d7N0yYc844.jpg

登陆名:admin 密码:admin

2、选择一个版本进行安装,此处选择第一个免费版。然后下一步-->下一步

wKiom1VASp3jAAQLAAIqbasUW1o224.jpg

3、选中所有主机:

wKioL1VATHGz8yDaAAEhFEDSrCA045.jpg

4、如果配置正确,会出现如下界面

wKioL1VATKfiFVprAAFo7cUuH7U250.jpg

5、然后继续下一步,由于我们已经下载了离线包,所以下载是很快就能完成的

wKiom1VAS3rgM30HAADIuBznOYc167.jpg

6、主机检测,检测主机是否符合安装要求,符合要求后会全部通过,否则请按照要求设置

wKiom1VATRjBPaitAAFK1VsDb8c464.jpg

7、然后选择需要安装的软件包,可以全选或自定义,也可以选择集成了某一个组件功能的软件包来安装

wKiom1VATXrSyOT8AAIUKmDmoqo471.jpg

8、角色分配,此处默认,可以按需调整

wKiom1VATdqAar6sAAFen2iofhk264.jpg

9、数据库测试:

wKioL1VAUJHRbcADAADudcyMESk690.jpg

10、审核更改参数,可以使用默认,也可以按需更改

wKiom1VAT5jDp-POAAC8bWDI2d4249.jpg

11、启动正常的安装配置了,等待安装完成后再次访问主页即可。

wKiom1VAT9HRD-ozAAEJegf_kTc998.jpg

12、完成后的登陆界面

wKiom1VAUx2Sp9m-AAJcSSMDXTQ450.jpg

由于主机性能较低,数据延迟很大,查询经常无法显示。而且由于此处的磁盘空间不足,所以有很多警告信息。到此安装已全部完成。


六、其他问题说明

oozie的web界面的开启:

wKiom1VAWXWTbxzxAADxt9g7Px0785.jpg

cloudera的文档中有说明配置oozie:

wKioL1VAXRCzYHe7AAED9KDDkY8680.jpg

安装这个操作即可:

1
2
3
# mv ext-2.2.zip /var/lib/oozie/
# cd /var/lib/oozie
# unzip ext-2.2.zip

刷新界面:

wKioL1VAXc2iUocbAAEpwnZLhek178.jpg

hadoop2.x版本更新了一些新功能,支持HDFS的高可用等。cloudera manager管理界面可以直接操作等这一系列的功能,还是很方便的。

在集群里的HDFS界面的右上角有操作选项栏:

wKiom1VAXWjgE5O4AAGBrGqzUSk844.jpg

点击后根据提示就能正常的配置了。管理界面添加移除集群中的主机也是非常方便的,具体的操作就不一一演示了。


七、Hadoop测试程序

1
2
3
4
5
6
# 计算pi值
# sudo -u hdfs hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 10 100
...
Job Finished  in  126.439  seconds
Estimated value of Pi  is  3.14800000000000000000
# 可以看到执行结果

可以在YARN的web界面看到详细job的信息

wKioL1VAYG3SQCFlAAF-p-mgzsc557.jpg

还有很多测试程序可以运行测试。这里就不一一演示了。

另外,这种安装方式虽然快捷方便,但是不利于对整体的理解,建议还是使用下载安装包的方式安装,配置文件等都是需要手动编写的,对于理解比较深刻。



本文转自Mr_陈 51CTO博客,原文链接:http://blog.51cto.com/chenpipi/1640255,如需转载请自行联系原作者

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
1月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
131 6
|
1月前
|
分布式计算 Hadoop Shell
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
68 4
|
1月前
|
SQL 分布式计算 Hadoop
Hadoop-37 HBase集群 JavaAPI 操作3台云服务器 POM 实现增删改查调用操作 列族信息 扫描全表
Hadoop-37 HBase集群 JavaAPI 操作3台云服务器 POM 实现增删改查调用操作 列族信息 扫描全表
31 3
|
1月前
|
分布式计算 Hadoop Shell
Hadoop-36 HBase 3节点云服务器集群 HBase Shell 增删改查 全程多图详细 列族 row key value filter
Hadoop-36 HBase 3节点云服务器集群 HBase Shell 增删改查 全程多图详细 列族 row key value filter
55 3
|
1月前
|
分布式计算 Java Hadoop
Hadoop-30 ZooKeeper集群 JavaAPI 客户端 POM Java操作ZK 监听节点 监听数据变化 创建节点 删除节点
Hadoop-30 ZooKeeper集群 JavaAPI 客户端 POM Java操作ZK 监听节点 监听数据变化 创建节点 删除节点
61 1
|
1月前
|
分布式计算 监控 Hadoop
Hadoop-29 ZooKeeper集群 Watcher机制 工作原理 与 ZK基本命令 测试集群效果 3台公网云服务器
Hadoop-29 ZooKeeper集群 Watcher机制 工作原理 与 ZK基本命令 测试集群效果 3台公网云服务器
37 1
|
1月前
|
分布式计算 Hadoop Unix
Hadoop-28 ZooKeeper集群 ZNode简介概念和测试 数据结构与监听机制 持久性节点 持久顺序节点 事务ID Watcher机制
Hadoop-28 ZooKeeper集群 ZNode简介概念和测试 数据结构与监听机制 持久性节点 持久顺序节点 事务ID Watcher机制
39 1
|
1月前
|
分布式计算 Hadoop
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
43 1
|
1月前
|
存储 SQL 消息中间件
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
44 0
|
1月前
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
79 0