CDH 部署教程

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
日志服务 SLS,月写入数据量 50GB 1个月
简介: CDH 部署教程

CDH 介绍

CDH 全称 Cloudera’s Distribution Including Apache Hadoop,是 Cloudera 公司提供的一个 Apache Hadoop 发行版。CDH 将 Hadoop 与其他十几个关键的开源项目集成,并且加入了集群自动化安装、中心化管理、集群监控、报警等功能。通过 CDH 可以使集群的安装从几天的时间缩短为几个小时。

image.pngCloudera Manager Server 节点提供 WebUI 操作界面,管理 Cloudera Manager Agent 节点,在运行 Agent 的机器上部署大数据相关组件。

IP 地址 主机名 角色 硬件配置 操作系统
192.168.1.215 cm-server Server,Agent 4C8G Centos7
192.168.1.216 cm-agent-1 Agent 4C8G Centos7
192.168.1.217 cm-agent-2 Agent 4C8G Centos7
192.168.1.14 cm-mysql 数据库 4C8G Centos7

安装包下载

CDH 的官方网站现在已经无法直接下载安装包了(需要账号密码),这里提供之前下载的安装包。百度网盘链接: https://pan.baidu.com/s/1dVk2j_UBtorQ4vyBda8nrA 密码: 1bsrimage.png为了方便在机器之间拷贝数据文件,将 cm-server 的公钥拷贝到其他两台 cm-agent 机器上,实现免密登录。后续需要拷贝的文件都是在 cm-server 上先配置好,然后通过 scp 命令拷贝到其他两台机器上。

在 cm-server 节点上生成公钥:

[root@cm-server ~]# ssh-keygen 
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa): 
Enter passphrase (empty for no passphrase): 
Enter same passphrase again: 
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
SHA256:57wmDSyaKv2aq487Y9mSgdMCU5A6HSnrXUn4HC6PFuM root@cm-server
The key's randomart image is:
+---[RSA 2048]----+
|.o ..            |
|o +. o           |
|.= .= o          |
|* .+ *           |
|++o B  .S .      |
|+o.E .. o+       |
| +*  o . oo      |
|+*.oo   . o.     |
|=BB=.    o.      |
+----[SHA256]-----+

拷贝公钥至其他两台机器:

[root@cm-server ~]# ssh-copy-id root@192.168.1.215
[root@cm-server ~]# ssh-copy-id root@192.168.1.216

以下步骤除非在括号内注明了在哪台机器上操作,否则都需要在三台机器上执行。

配置 Host 文件

配置 host 文件,集群节点间通信都使用主机名。

#vim /etc/hosts
192.168.1.215 cm-server
192.168.1.216 cm-agent-1
192.168.1.217 cm-agent-2

配置完毕后拷贝文件到其他两台机器。

[root@cm-server ~]# scp /etc/hosts cm-agent-1:/etc/hosts
[root@cm-server ~]# scp /etc/hosts cm-agent-2:/etc/hosts

关闭 SeLinux

执行 getenforce 指令查看 selinux 状态:

[root@cm-server ~]# getenforce 
Permissive

如果输出为 Enforcing,则需要处理一下,否则可以跳过这一步。修改 /etc/selinux/config 文件,将 SELINUX=enforcing 修改为SELINUX=disabled,使用以下命令修改并立即生效:

[root@cm-server ~]# sed -i s/SELINUX=enforcing/SELINUX=disabled/g /etc/selinux/config 
[root@cm-server ~]# setenforce 0

配置时间同步

所有服务器都以 cm-server 作为 NTP 服务器,修改 /etc/chrony.conf 文件,配置如下:

# Use public servers from the pool.ntp.org project.
# Please consider joining the pool (http://
server cm-server iburst
# Record the rate at which the system clock gains/losses time.
driftfile /var/lib/chrony/drift
# Allow the system clock to be stepped in the first three updates
# if its offset is larger than 1 second.
makestep 1.0 3
# Enable kernel synchronization of the real-time clock (RTC).
rtcsync
# Enable hardware timestamping on all interfaces that support it.
#hwtimestamp *
# Increase the minimum number of selectable sources required to adjust
# the system clock.
#minsources 2
# Allow NTP client access from local network.
allow 192.168.1.0/24
# Serve time even if not synchronized to a time source.
local stratum 10
# Specify file containing keys for NTP authentication.
#keyfile /etc/chrony.keys
# Specify directory for log files.
logdir /var/log/chrony
# Select which information is logged.
#log measurements statistics tracking

修改完成后重启 chronyd 服务并配置随机启动:

[root@cm-server ~]# systemctl restart chronyd && systemctl enable chronyd

检查时间状态:

[root@cm-server ~]# chronyc sources
210 Number of sources = 1
MS Name/IP address         Stratum Poll Reach LastRx Last sample               
===============================================================================
^* cm-server                    10   6   377    77   +445ns[  -16us] +/-   26us
[root@cm-agent-1 ~]# chronyc sources
210 Number of sources = 1
MS Name/IP address         Stratum Poll Reach LastRx Last sample               
===============================================================================
^* cm-server                    11   6    17    27  -1082ns[-3591ns] +/-   45ms
[root@cm-agent-2 ~]# chronyc sources
210 Number of sources = 1
MS Name/IP address         Stratum Poll Reach LastRx Last sample               
===============================================================================
^* cm-server                    11   6    17    27    -18us[  +48us] +/-   47ms

主机参数配置

CDH Manager 需要做一些 Linux 系统层面的优化,主要包括两类:禁止透明大页面及交换分区设置。详情请参考 Cloudera 官方网址。

修改swappiness

vm.swappiness 参数可以调整机器使用内存、交互分区的比例。vm.swappiness 的取值范围在 0-100 之间,当 vm.swappiness 为 0 时,表示最大限度地使用物理内存,而后使用 swap 空间;当 swappiness 为 100 时,表示最大限度地使用 swap 空间,把内存中的数据及时搬运到 swap 空间中去。

[root@cm-server ~]# echo vm.swappiness=0 >>  /etc/sysctl.conf 
[root@cm-server ~]# sysctl -p

关闭透明大页面

大多数 Linux 平台都包含一个称为透明大页面的功能,该功能与 Hadoop 工作节点的交互很差,并且会严重降低性能。

查看透明大页是否启用,[always] never 表示已启用,always [never] 表示已禁用。

[root@cm-server ~]#  cat /sys/kernel/mm/transparent_hugepage/defrag
always madvise [never]

如果是启用状态,则执行以下操作关闭透明大页面:

[root@cm-server ~]# echo never > /sys/kernel/mm/transparent_hugepage/enabled
[root@cm-server ~]# echo never > /sys/kernel/mm/transparent_hugepage/defrag

并将以上命令添加到 /etc/rc.d/rc.local 文件中,使系统重启时依然生效。

关闭防火墙

systemctl disable firewalld
systemctl stop firewalld

安装 Python

Centos7 默认已经安装了 Python 2.7.5 版本,如果没有安装则使用以下命令安装:

yum install python275

安装 JDK

下载 JDK 安装包:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html

安装 JDK:

rpm -ivh jdk-8u211-linux-x64.rpm

配置 JAVA 环境变量, 在 /etc/profile 中追加以下内容:

export JAVA_HOME=/usr/java/default
export CLASSPATH=./:$JAVA_HOME/lib
export PATH=$JAVA_HOME/bin:$PATH

安装 MySQL 数据库(cm-mysql)

下载安装包

MySQL 5.7 Linux 安装包下载地址:https://dev.mysql.com/downloads/mysql/5.7.htmlimage.png

查询并卸载系统自带的 Mariadb

rpm -qa | grep mariadb
rpm -e --nodeps 文件名

创建 mysql 用户

为了方便数据库管理,对于安装的 MySQL 数据库,生产上我们都会建立一个 mysql 用户和 mysql 用户组:

# 添加mysql用户组
groupadd mysql
# 添加mysql用户
useradd -g mysql mysql -d /home/mysql
# 修改mysql用户的登陆密码
passwd mysql

创建临时目录,数据目录和日志目录:

mkdir -p /home/mysql/3306/data
mkdir -p /home/mysql/3306/log
mkdir -p /home/mysql/3306/tmp

将下载的安装包移至 /usr/local 目录

# 解压缩
tar -xvf mysql-5.7.32-linux-glibc2.12-x86_64.tar
# 会得到一个mysql-5.7.32-linux-glibc2.12-x86_64.tar.gz文件,再解压缩
tar -zxvf mysql-5.7.32-linux-glibc2.12-x86_64.tar.gz -C /usr/local/mysql
# 修改mysql文件夹下所有文件的用户和用户组
chown -R mysql:mysql /usr/local/mysql

创建配置文件

vim /etc/my.cnf:

[client]                                        # 客户端设置,即客户端默认的连接参数
port = 3306                                    # 默认连接端口
socket = /home/mysql/3306/tmp/mysql.sock                        # 用于本地连接的socket套接字,mysqld守护进程生成了这个文件
[mysqld]                                        # 服务端基本设置
# 基础设置
server-id = 1                                  # Mysql服务的唯一编号 每个mysql服务Id需唯一
port = 3306                                    # MySQL监听端口
basedir = /usr/local/mysql                      # MySQL安装根目录
datadir = /home/mysql/3306/data                      # MySQL数据文件所在位置
tmpdir  = /home/mysql/3306/tmp                                  # 临时目录,比如load data infile会用到
socket = /home/mysql/3306/tmp/mysql.sock        # 为MySQL客户端程序和服务器之间的本地通讯指定一个套接字文件
pid-file = /home/mysql/3306/log/mysql.pid      # pid文件所在目录
skip_name_resolve = 1                          # 只能用IP地址检查客户端的登录,不用主机名
character-set-server = utf8mb4                  # 数据库默认字符集,主流字符集支持一些特殊表情符号(特殊表情符占用4个字节)
transaction_isolation = READ-COMMITTED          # 事务隔离级别,默认为可重复读,MySQL默认可重复读级别
collation-server = utf8mb4_general_ci          # 数据库字符集对应一些排序等规则,注意要和character-set-server对应
init_connect='SET NAMES utf8mb4'                # 设置client连接mysql时的字符集,防止乱码
lower_case_table_names = 1                      # 是否对sql语句大小写敏感,1表示不敏感
max_connections = 400                          # 最大连接数
max_connect_errors = 1000                      # 最大错误连接数
explicit_defaults_for_timestamp = true          # TIMESTAMP如果没有显示声明NOT NULL,允许NULL值
max_allowed_packet = 128M                      # SQL数据包发送的大小,如果有BLOB对象建议修改成1G
interactive_timeout = 1800                      # MySQL连接闲置超过一定时间后(单位:秒)将会被强行关闭
wait_timeout = 1800                            # MySQL默认的wait_timeout值为8个小时, interactive_timeout参数需要同时配置才能生效
tmp_table_size = 16M                            # 内部内存临时表的最大值 ,设置成128M;比如大数据量的group by ,order by时可能用到临时表;超过了这个值将写入磁盘,系统IO压力增大
max_heap_table_size = 128M                      # 定义了用户可以创建的内存表(memory table)的大小
query_cache_size = 0                            # 禁用mysql的缓存查询结果集功能;后期根据业务情况测试决定是否开启;大部分情况下关闭下面两项
query_cache_type = 0
# 用户进程分配到的内存设置,每个session将会分配参数设置的内存大小
read_buffer_size = 2M                          # MySQL读入缓冲区大小。对表进行顺序扫描的请求将分配一个读入缓冲区,MySQL会为它分配一段内存缓冲区。
read_rnd_buffer_size = 8M                      # MySQL的随机读缓冲区大小
sort_buffer_size = 8M                          # MySQL执行排序使用的缓冲大小
binlog_cache_size = 1M                          # 一个事务,在没有提交的时候,产生的日志,记录到Cache中;等到事务提交需要提交的时候,则把日志持久化到磁盘。默认binlog_cache_size大小32K
back_log = 130                                  # 在MySQL暂时停止响应新请求之前的短时间内多少个请求可以被存在堆栈中;官方建议back_log = 50 + (max_connections / 5),封顶数为900
# 日志设置
log_error = /home/mysql/3306/log/error.log                          # 数据库错误日志文件
slow_query_log = 1                              # 慢查询sql日志设置
long_query_time = 1                            # 慢查询时间;超过1秒则为慢查询
slow_query_log_file = /home/mysql/3306/log/slow.log                  # 慢查询日志文件
log_queries_not_using_indexes = 1              # 检查未使用到索引的sql
log_throttle_queries_not_using_indexes = 5      # 用来表示每分钟允许记录到slow log的且未使用索引的SQL语句次数。该值默认为0,表示没有限制
min_examined_row_limit = 100                    # 检索的行数必须达到此值才可被记为慢查询,查询检查返回少于该参数指定行的SQL不被记录到慢查询日志
expire_logs_days = 5                            # MySQL binlog日志文件保存的过期时间,过期后自动删除
# 主从复制设置
log-bin = mysql-bin                            # 开启mysql binlog功能
binlog_format = ROW                            # binlog记录内容的方式,记录被操作的每一行
binlog_row_image = minimal                      # 对于binlog_format = ROW模式时,减少记录日志的内容,只记录受影响的列
# Innodb设置
innodb_open_files = 500                        # 限制Innodb能打开的表的数据,如果库里的表特别多的情况,请增加这个。这个值默认是300
innodb_buffer_pool_size = 64M                  # InnoDB使用一个缓冲池来保存索引和原始数据,一般设置物理存储的60% ~ 70%;这里你设置越大,你在存取表里面数据时所需要的磁盘I/O越少
innodb_log_buffer_size = 2M                    # 此参数确定写日志文件所用的内存大小,以M为单位。缓冲区更大能提高性能,但意外的故障将会丢失数据。MySQL开发人员建议设置为1-8M之间
innodb_flush_method = O_DIRECT                  # O_DIRECT减少操作系统级别VFS的缓存和Innodb本身的buffer缓存之间的冲突
innodb_write_io_threads = 4                    # CPU多核处理能力设置,根据读,写比例进行调整
innodb_read_io_threads = 4
innodb_lock_wait_timeout = 120                  # InnoDB事务在被回滚之前可以等待一个锁定的超时秒数。InnoDB在它自己的锁定表中自动检测事务死锁并且回滚事务。InnoDB用LOCK TABLES语句注意到锁定设置。默认值是50秒
innodb_log_file_size = 32M                      # 此参数确定数据日志文件的大小,更大的设置可以提高性能,但也会增加恢复故障数据库所需的时间

安装数据库

# 初始化数据库,并指定启动mysql的用户
/usr/local/mysql/bin/mysqld --initialize --user=mysql

安装完成后,在 my.cnf 中配置的 /home/mysql/3306/error.log 文件里面记录了 root 用户的随机密码。

设置开机自启动服务

# 复制启动脚本到资源目录
cp /usr/local/mysql/support-files/mysql.server /etc/rc.d/init.d/mysqld
# 增加mysqld服务控制脚本执行权限
chmod +x /etc/rc.d/init.d/mysqld
# 将mysqld服务加入到系统服务
chkconfig --add mysqld
# 检查mysqld服务是否已经生效
chkconfig --list mysqld
# 启动mysql
service mysqld start

配置环境变量

# 切换至mysql用户
su - mysql
# 修改配置文件,增加export PATH=$PATH:/usr/local/mysql/bin
vi .bash_profile
# 立即生效
source .bash_profile

登陆并修改密码

# 登陆mysql
mysql -uroot -p
# 修改root用户密码
set password for root@localhost=password("123456");

设置远程登录

grant all privileges on *.* to root@'%' identified by '123456';

创建 CDH 所需数据库和用户

把后面可能用到的大数据组件的数据库和用户都提前创建好:image.png

CREATE DATABASE scm DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
CREATE DATABASE amon DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
CREATE DATABASE rman DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
CREATE DATABASE hue DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
CREATE DATABASE metastore DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
CREATE DATABASE sentry DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
CREATE DATABASE nav DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
CREATE DATABASE navms DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
CREATE DATABASE oozie DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
CREATE DATABASE hive DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
GRANT ALL ON scm.* TO 'scm'@'%' IDENTIFIED BY '123456';
GRANT ALL ON amon.* TO 'amon'@'%' IDENTIFIED BY '123456';
GRANT ALL ON rman.* TO 'rman'@'%' IDENTIFIED BY '123456';
GRANT ALL ON hue.* TO 'hue'@'%' IDENTIFIED BY '123456';
GRANT ALL ON metastore.* TO 'metastore'@'%' IDENTIFIED BY '123456';
GRANT ALL ON sentry.* TO 'sentry'@'%' IDENTIFIED BY '123456';
GRANT ALL ON nav.* TO 'nav'@'%' IDENTIFIED BY '123456';
GRANT ALL ON navms.* TO 'navms'@'%' IDENTIFIED BY '123456';
GRANT ALL ON oozie.* TO 'oozie'@'%' IDENTIFIED BY '123456';
GRANT ALL ON hive.* TO 'hive'@'%' IDENTIFIED BY '123456';

拷贝 JDBC 驱动包到指定目录

cp mysql-connector-java-8.0.16.jar /usr/share/java/mysql-connector-java.jar

安装 Clouder Manager Server(cm-server)

只在 cm-server 上安装 Clouder Manager Server。

[root@cm-server software]# yum install -y  cloudera-manager-agent-6.3.1-1466458.el7.x86_64.rpm

安装 Clouder Manager Agent

[root@cm-agent-1 software]# yum install -y cloudera-manager-agent-6.3.1-1466458.el7.x86_64.rpm  cloudera-manager-daemons-6.3.1-1466458.el7.x86_64.rpm

修改 Agent 配置文件:/etc/cloudera-scm-agent/config.ini 将 server_host=localhost 改为 server_host=cm-server

初始化 Clouder Manager 数据库表(cm-server)

# 命令参数
#/opt/cloudera/cm/schema/scm_prepare_database.sh [options] <databaseType> <databaseName> <databaseUser> <password>
[root@cm-server schema]# /opt/cloudera/cm/schema/scm_prepare_database.sh -h 192.168.1.14 mysql scm scm 123456
JAVA_HOME=/usr/java/default
Verifying that we can write to /etc/cloudera-scm-server
Creating SCM configuration file in /etc/cloudera-scm-server
Executing:  /usr/java/default/bin/java -cp /usr/share/java/mysql-connector-java.jar:/usr/share/java/oracle-connector-java.jar:/usr/share/java/postgresql-connector-java.jar:/opt/cloudera/cm/schema/../lib/* com.cloudera.enterprise.dbutil.DbCommandExecutor /etc/cloudera-scm-server/db.properties com.cloudera.cmf.db.
Loading class `com.mysql.jdbc.Driver'. This is deprecated. The new driver class is `com.mysql.cj.jdbc.Driver'. The driver is automatically registered via the SPI and manual loading of the driver class is generally unnecessary.
[                          main] DbCommandExecutor              INFO  Successfully connected to database.
All done, your SCM database is configured correctly!

拷贝 Parcel 文件到指定目录(cm-server)

[root@cm-server software]# cp CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel /opt/cloudera/parcel-repo/
[root@cm-server software]# cp CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel.sha /opt/cloudera/parcel-repo/

启动 Clouder Manager Server (cm-server)

在 cm-serer 上启动 Clouder Manager Server:

[root@cm-server software]# systemctl start cloudera-scm-server 
[root@cm-server software]# systemctl enable cloudera-scm-server

启动 Clouder Manager Agent

在三台机器上启动 Clouder Manager Agent:

[root@cm-server software]# systemctl start cloudera-scm-agent
[root@cm-server software]# systemctl enable cloudera-scm-agent

登录 Clouder Manager 完成集群安装

登录 Clouder ManaManagerger Server 管理界面,浏览器访问地址: http://192.168.1.215:7180 ,默认用户密码为 admin/admin。

image.pngimage.pngimage.pngimage.pngimage.pngimage.pngimage.pngimage.pngimage.pngimage.pngimage.pngimage.pngimage.pngimage.pngimage.pngimage.pngimage.pngimage.pngimage.png

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
5月前
|
分布式计算 资源调度 Hadoop
Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(二)
Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(二)
|
5月前
|
分布式计算 Ubuntu Hadoop
Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(一)
Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(一)
|
存储 SQL 分布式计算
CDH和CloudManager概述
CDH和CloudManager概述
206 0
|
监控 大数据 物联网
在CDH7.1.1中安装NiFi
在CDH7.1.1中安装NiFi
167 0
|
分布式计算 Hadoop Java
Hadoop使用教程(1):单节点部署
本文记录了hadoop单节点部署的步骤
|
分布式计算 资源调度 Java
超简单的CDH6部署和体验(单机版)
借助ansible,和已经调试好的playbook,快速部署和体验单机版CDH6
782 0
超简单的CDH6部署和体验(单机版)
|
SQL 关系型数据库 MySQL
CDH 搭建_kudu|学习笔记
快速学习 CDH 搭建_kudu
360 0
CDH 搭建_kudu|学习笔记
|
SQL 存储 分布式计算
CDH 搭建_创建虚拟机|学习笔记
快速学习CDH 搭建_创建虚拟机
188 0
CDH 搭建_创建虚拟机|学习笔记
|
分布式计算 资源调度 Hadoop
CDH 搭建_ Hadoop _安装包|学习笔记
快速学习 CDH 搭建_ Hadoop _安装包
238 0
CDH 搭建_ Hadoop _安装包|学习笔记
|
SQL 关系型数据库 MySQL
CDH 搭建_Hive_搭建完成|学习笔记
快速学习 CDH 搭建_Hive_搭建完成
245 0
CDH 搭建_Hive_搭建完成|学习笔记