CDH 介绍
CDH 全称 Cloudera’s Distribution Including Apache Hadoop,是 Cloudera 公司提供的一个 Apache Hadoop 发行版。CDH 将 Hadoop 与其他十几个关键的开源项目集成,并且加入了集群自动化安装、中心化管理、集群监控、报警等功能。通过 CDH 可以使集群的安装从几天的时间缩短为几个小时。
Cloudera Manager Server 节点提供 WebUI 操作界面,管理 Cloudera Manager Agent 节点,在运行 Agent 的机器上部署大数据相关组件。
IP 地址 | 主机名 | 角色 | 硬件配置 | 操作系统 |
192.168.1.215 | cm-server | Server,Agent | 4C8G | Centos7 |
192.168.1.216 | cm-agent-1 | Agent | 4C8G | Centos7 |
192.168.1.217 | cm-agent-2 | Agent | 4C8G | Centos7 |
192.168.1.14 | cm-mysql | 数据库 | 4C8G | Centos7 |
安装包下载
CDH 的官方网站现在已经无法直接下载安装包了(需要账号密码),这里提供之前下载的安装包。百度网盘链接: https://pan.baidu.com/s/1dVk2j_UBtorQ4vyBda8nrA 密码: 1bsr为了方便在机器之间拷贝数据文件,将 cm-server 的公钥拷贝到其他两台 cm-agent 机器上,实现免密登录。后续需要拷贝的文件都是在 cm-server 上先配置好,然后通过 scp 命令拷贝到其他两台机器上。
在 cm-server 节点上生成公钥:
[root@cm-server ~]# ssh-keygen Generating public/private rsa key pair. Enter file in which to save the key (/root/.ssh/id_rsa): Enter passphrase (empty for no passphrase): Enter same passphrase again: Your identification has been saved in /root/.ssh/id_rsa. Your public key has been saved in /root/.ssh/id_rsa.pub. The key fingerprint is: SHA256:57wmDSyaKv2aq487Y9mSgdMCU5A6HSnrXUn4HC6PFuM root@cm-server The key's randomart image is: +---[RSA 2048]----+ |.o .. | |o +. o | |.= .= o | |* .+ * | |++o B .S . | |+o.E .. o+ | | +* o . oo | |+*.oo . o. | |=BB=. o. | +----[SHA256]-----+
拷贝公钥至其他两台机器:
[root@cm-server ~]# ssh-copy-id root@192.168.1.215 [root@cm-server ~]# ssh-copy-id root@192.168.1.216
以下步骤除非在括号内注明了在哪台机器上操作,否则都需要在三台机器上执行。
配置 Host 文件
配置 host 文件,集群节点间通信都使用主机名。
#vim /etc/hosts 192.168.1.215 cm-server 192.168.1.216 cm-agent-1 192.168.1.217 cm-agent-2
配置完毕后拷贝文件到其他两台机器。
[root@cm-server ~]# scp /etc/hosts cm-agent-1:/etc/hosts [root@cm-server ~]# scp /etc/hosts cm-agent-2:/etc/hosts
关闭 SeLinux
执行 getenforce 指令查看 selinux 状态:
[root@cm-server ~]# getenforce Permissive
如果输出为 Enforcing,则需要处理一下,否则可以跳过这一步。修改 /etc/selinux/config 文件,将 SELINUX=enforcing
修改为SELINUX=disabled
,使用以下命令修改并立即生效:
[root@cm-server ~]# sed -i s/SELINUX=enforcing/SELINUX=disabled/g /etc/selinux/config [root@cm-server ~]# setenforce 0
配置时间同步
所有服务器都以 cm-server 作为 NTP 服务器,修改 /etc/chrony.conf 文件,配置如下:
# Use public servers from the pool.ntp.org project. # Please consider joining the pool (http:// server cm-server iburst # Record the rate at which the system clock gains/losses time. driftfile /var/lib/chrony/drift # Allow the system clock to be stepped in the first three updates # if its offset is larger than 1 second. makestep 1.0 3 # Enable kernel synchronization of the real-time clock (RTC). rtcsync # Enable hardware timestamping on all interfaces that support it. #hwtimestamp * # Increase the minimum number of selectable sources required to adjust # the system clock. #minsources 2 # Allow NTP client access from local network. allow 192.168.1.0/24 # Serve time even if not synchronized to a time source. local stratum 10 # Specify file containing keys for NTP authentication. #keyfile /etc/chrony.keys # Specify directory for log files. logdir /var/log/chrony # Select which information is logged. #log measurements statistics tracking
修改完成后重启 chronyd 服务并配置随机启动:
[root@cm-server ~]# systemctl restart chronyd && systemctl enable chronyd
检查时间状态:
[root@cm-server ~]# chronyc sources 210 Number of sources = 1 MS Name/IP address Stratum Poll Reach LastRx Last sample =============================================================================== ^* cm-server 10 6 377 77 +445ns[ -16us] +/- 26us [root@cm-agent-1 ~]# chronyc sources 210 Number of sources = 1 MS Name/IP address Stratum Poll Reach LastRx Last sample =============================================================================== ^* cm-server 11 6 17 27 -1082ns[-3591ns] +/- 45ms [root@cm-agent-2 ~]# chronyc sources 210 Number of sources = 1 MS Name/IP address Stratum Poll Reach LastRx Last sample =============================================================================== ^* cm-server 11 6 17 27 -18us[ +48us] +/- 47ms
主机参数配置
CDH Manager 需要做一些 Linux 系统层面的优化,主要包括两类:禁止透明大页面及交换分区设置。详情请参考 Cloudera 官方网址。
修改swappiness
vm.swappiness 参数可以调整机器使用内存、交互分区的比例。vm.swappiness 的取值范围在 0-100 之间,当 vm.swappiness 为 0 时,表示最大限度地使用物理内存,而后使用 swap 空间;当 swappiness 为 100 时,表示最大限度地使用 swap 空间,把内存中的数据及时搬运到 swap 空间中去。
[root@cm-server ~]# echo vm.swappiness=0 >> /etc/sysctl.conf [root@cm-server ~]# sysctl -p
关闭透明大页面
大多数 Linux 平台都包含一个称为透明大页面的功能,该功能与 Hadoop 工作节点的交互很差,并且会严重降低性能。
查看透明大页是否启用,[always] never 表示已启用,always [never] 表示已禁用。
[root@cm-server ~]# cat /sys/kernel/mm/transparent_hugepage/defrag always madvise [never]
如果是启用状态,则执行以下操作关闭透明大页面:
[root@cm-server ~]# echo never > /sys/kernel/mm/transparent_hugepage/enabled [root@cm-server ~]# echo never > /sys/kernel/mm/transparent_hugepage/defrag
并将以上命令添加到 /etc/rc.d/rc.local 文件中,使系统重启时依然生效。
关闭防火墙
systemctl disable firewalld systemctl stop firewalld
安装 Python
Centos7 默认已经安装了 Python 2.7.5 版本,如果没有安装则使用以下命令安装:
yum install python275
安装 JDK
下载 JDK 安装包:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html
安装 JDK:
rpm -ivh jdk-8u211-linux-x64.rpm
配置 JAVA 环境变量, 在 /etc/profile 中追加以下内容:
export JAVA_HOME=/usr/java/default export CLASSPATH=./:$JAVA_HOME/lib export PATH=$JAVA_HOME/bin:$PATH
安装 MySQL 数据库(cm-mysql)
下载安装包
MySQL 5.7 Linux 安装包下载地址:https://dev.mysql.com/downloads/mysql/5.7.html
查询并卸载系统自带的 Mariadb
rpm -qa | grep mariadb rpm -e --nodeps 文件名
创建 mysql 用户
为了方便数据库管理,对于安装的 MySQL 数据库,生产上我们都会建立一个 mysql 用户和 mysql 用户组:
# 添加mysql用户组 groupadd mysql # 添加mysql用户 useradd -g mysql mysql -d /home/mysql # 修改mysql用户的登陆密码 passwd mysql
创建临时目录,数据目录和日志目录:
mkdir -p /home/mysql/3306/data mkdir -p /home/mysql/3306/log mkdir -p /home/mysql/3306/tmp
将下载的安装包移至 /usr/local 目录
# 解压缩 tar -xvf mysql-5.7.32-linux-glibc2.12-x86_64.tar # 会得到一个mysql-5.7.32-linux-glibc2.12-x86_64.tar.gz文件,再解压缩 tar -zxvf mysql-5.7.32-linux-glibc2.12-x86_64.tar.gz -C /usr/local/mysql # 修改mysql文件夹下所有文件的用户和用户组 chown -R mysql:mysql /usr/local/mysql
创建配置文件
vim /etc/my.cnf:
[client] # 客户端设置,即客户端默认的连接参数 port = 3306 # 默认连接端口 socket = /home/mysql/3306/tmp/mysql.sock # 用于本地连接的socket套接字,mysqld守护进程生成了这个文件 [mysqld] # 服务端基本设置 # 基础设置 server-id = 1 # Mysql服务的唯一编号 每个mysql服务Id需唯一 port = 3306 # MySQL监听端口 basedir = /usr/local/mysql # MySQL安装根目录 datadir = /home/mysql/3306/data # MySQL数据文件所在位置 tmpdir = /home/mysql/3306/tmp # 临时目录,比如load data infile会用到 socket = /home/mysql/3306/tmp/mysql.sock # 为MySQL客户端程序和服务器之间的本地通讯指定一个套接字文件 pid-file = /home/mysql/3306/log/mysql.pid # pid文件所在目录 skip_name_resolve = 1 # 只能用IP地址检查客户端的登录,不用主机名 character-set-server = utf8mb4 # 数据库默认字符集,主流字符集支持一些特殊表情符号(特殊表情符占用4个字节) transaction_isolation = READ-COMMITTED # 事务隔离级别,默认为可重复读,MySQL默认可重复读级别 collation-server = utf8mb4_general_ci # 数据库字符集对应一些排序等规则,注意要和character-set-server对应 init_connect='SET NAMES utf8mb4' # 设置client连接mysql时的字符集,防止乱码 lower_case_table_names = 1 # 是否对sql语句大小写敏感,1表示不敏感 max_connections = 400 # 最大连接数 max_connect_errors = 1000 # 最大错误连接数 explicit_defaults_for_timestamp = true # TIMESTAMP如果没有显示声明NOT NULL,允许NULL值 max_allowed_packet = 128M # SQL数据包发送的大小,如果有BLOB对象建议修改成1G interactive_timeout = 1800 # MySQL连接闲置超过一定时间后(单位:秒)将会被强行关闭 wait_timeout = 1800 # MySQL默认的wait_timeout值为8个小时, interactive_timeout参数需要同时配置才能生效 tmp_table_size = 16M # 内部内存临时表的最大值 ,设置成128M;比如大数据量的group by ,order by时可能用到临时表;超过了这个值将写入磁盘,系统IO压力增大 max_heap_table_size = 128M # 定义了用户可以创建的内存表(memory table)的大小 query_cache_size = 0 # 禁用mysql的缓存查询结果集功能;后期根据业务情况测试决定是否开启;大部分情况下关闭下面两项 query_cache_type = 0 # 用户进程分配到的内存设置,每个session将会分配参数设置的内存大小 read_buffer_size = 2M # MySQL读入缓冲区大小。对表进行顺序扫描的请求将分配一个读入缓冲区,MySQL会为它分配一段内存缓冲区。 read_rnd_buffer_size = 8M # MySQL的随机读缓冲区大小 sort_buffer_size = 8M # MySQL执行排序使用的缓冲大小 binlog_cache_size = 1M # 一个事务,在没有提交的时候,产生的日志,记录到Cache中;等到事务提交需要提交的时候,则把日志持久化到磁盘。默认binlog_cache_size大小32K back_log = 130 # 在MySQL暂时停止响应新请求之前的短时间内多少个请求可以被存在堆栈中;官方建议back_log = 50 + (max_connections / 5),封顶数为900 # 日志设置 log_error = /home/mysql/3306/log/error.log # 数据库错误日志文件 slow_query_log = 1 # 慢查询sql日志设置 long_query_time = 1 # 慢查询时间;超过1秒则为慢查询 slow_query_log_file = /home/mysql/3306/log/slow.log # 慢查询日志文件 log_queries_not_using_indexes = 1 # 检查未使用到索引的sql log_throttle_queries_not_using_indexes = 5 # 用来表示每分钟允许记录到slow log的且未使用索引的SQL语句次数。该值默认为0,表示没有限制 min_examined_row_limit = 100 # 检索的行数必须达到此值才可被记为慢查询,查询检查返回少于该参数指定行的SQL不被记录到慢查询日志 expire_logs_days = 5 # MySQL binlog日志文件保存的过期时间,过期后自动删除 # 主从复制设置 log-bin = mysql-bin # 开启mysql binlog功能 binlog_format = ROW # binlog记录内容的方式,记录被操作的每一行 binlog_row_image = minimal # 对于binlog_format = ROW模式时,减少记录日志的内容,只记录受影响的列 # Innodb设置 innodb_open_files = 500 # 限制Innodb能打开的表的数据,如果库里的表特别多的情况,请增加这个。这个值默认是300 innodb_buffer_pool_size = 64M # InnoDB使用一个缓冲池来保存索引和原始数据,一般设置物理存储的60% ~ 70%;这里你设置越大,你在存取表里面数据时所需要的磁盘I/O越少 innodb_log_buffer_size = 2M # 此参数确定写日志文件所用的内存大小,以M为单位。缓冲区更大能提高性能,但意外的故障将会丢失数据。MySQL开发人员建议设置为1-8M之间 innodb_flush_method = O_DIRECT # O_DIRECT减少操作系统级别VFS的缓存和Innodb本身的buffer缓存之间的冲突 innodb_write_io_threads = 4 # CPU多核处理能力设置,根据读,写比例进行调整 innodb_read_io_threads = 4 innodb_lock_wait_timeout = 120 # InnoDB事务在被回滚之前可以等待一个锁定的超时秒数。InnoDB在它自己的锁定表中自动检测事务死锁并且回滚事务。InnoDB用LOCK TABLES语句注意到锁定设置。默认值是50秒 innodb_log_file_size = 32M # 此参数确定数据日志文件的大小,更大的设置可以提高性能,但也会增加恢复故障数据库所需的时间
安装数据库
# 初始化数据库,并指定启动mysql的用户 /usr/local/mysql/bin/mysqld --initialize --user=mysql
安装完成后,在 my.cnf 中配置的 /home/mysql/3306/error.log 文件里面记录了 root 用户的随机密码。
设置开机自启动服务
# 复制启动脚本到资源目录 cp /usr/local/mysql/support-files/mysql.server /etc/rc.d/init.d/mysqld # 增加mysqld服务控制脚本执行权限 chmod +x /etc/rc.d/init.d/mysqld # 将mysqld服务加入到系统服务 chkconfig --add mysqld # 检查mysqld服务是否已经生效 chkconfig --list mysqld # 启动mysql service mysqld start
配置环境变量
# 切换至mysql用户 su - mysql # 修改配置文件,增加export PATH=$PATH:/usr/local/mysql/bin vi .bash_profile # 立即生效 source .bash_profile
登陆并修改密码
# 登陆mysql mysql -uroot -p # 修改root用户密码 set password for root@localhost=password("123456");
设置远程登录
grant all privileges on *.* to root@'%' identified by '123456';
创建 CDH 所需数据库和用户
把后面可能用到的大数据组件的数据库和用户都提前创建好:
CREATE DATABASE scm DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci; CREATE DATABASE amon DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci; CREATE DATABASE rman DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci; CREATE DATABASE hue DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci; CREATE DATABASE metastore DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci; CREATE DATABASE sentry DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci; CREATE DATABASE nav DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci; CREATE DATABASE navms DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci; CREATE DATABASE oozie DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci; CREATE DATABASE hive DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci; GRANT ALL ON scm.* TO 'scm'@'%' IDENTIFIED BY '123456'; GRANT ALL ON amon.* TO 'amon'@'%' IDENTIFIED BY '123456'; GRANT ALL ON rman.* TO 'rman'@'%' IDENTIFIED BY '123456'; GRANT ALL ON hue.* TO 'hue'@'%' IDENTIFIED BY '123456'; GRANT ALL ON metastore.* TO 'metastore'@'%' IDENTIFIED BY '123456'; GRANT ALL ON sentry.* TO 'sentry'@'%' IDENTIFIED BY '123456'; GRANT ALL ON nav.* TO 'nav'@'%' IDENTIFIED BY '123456'; GRANT ALL ON navms.* TO 'navms'@'%' IDENTIFIED BY '123456'; GRANT ALL ON oozie.* TO 'oozie'@'%' IDENTIFIED BY '123456'; GRANT ALL ON hive.* TO 'hive'@'%' IDENTIFIED BY '123456';
拷贝 JDBC 驱动包到指定目录
cp mysql-connector-java-8.0.16.jar /usr/share/java/mysql-connector-java.jar
安装 Clouder Manager Server(cm-server)
只在 cm-server 上安装 Clouder Manager Server。
[root@cm-server software]# yum install -y cloudera-manager-agent-6.3.1-1466458.el7.x86_64.rpm
安装 Clouder Manager Agent
[root@cm-agent-1 software]# yum install -y cloudera-manager-agent-6.3.1-1466458.el7.x86_64.rpm cloudera-manager-daemons-6.3.1-1466458.el7.x86_64.rpm
修改 Agent 配置文件:/etc/cloudera-scm-agent/config.ini 将 server_host=localhost
改为 server_host=cm-server
。
初始化 Clouder Manager 数据库表(cm-server)
# 命令参数 #/opt/cloudera/cm/schema/scm_prepare_database.sh [options] <databaseType> <databaseName> <databaseUser> <password> [root@cm-server schema]# /opt/cloudera/cm/schema/scm_prepare_database.sh -h 192.168.1.14 mysql scm scm 123456 JAVA_HOME=/usr/java/default Verifying that we can write to /etc/cloudera-scm-server Creating SCM configuration file in /etc/cloudera-scm-server Executing: /usr/java/default/bin/java -cp /usr/share/java/mysql-connector-java.jar:/usr/share/java/oracle-connector-java.jar:/usr/share/java/postgresql-connector-java.jar:/opt/cloudera/cm/schema/../lib/* com.cloudera.enterprise.dbutil.DbCommandExecutor /etc/cloudera-scm-server/db.properties com.cloudera.cmf.db. Loading class `com.mysql.jdbc.Driver'. This is deprecated. The new driver class is `com.mysql.cj.jdbc.Driver'. The driver is automatically registered via the SPI and manual loading of the driver class is generally unnecessary. [ main] DbCommandExecutor INFO Successfully connected to database. All done, your SCM database is configured correctly!
拷贝 Parcel 文件到指定目录(cm-server)
[root@cm-server software]# cp CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel /opt/cloudera/parcel-repo/ [root@cm-server software]# cp CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel.sha /opt/cloudera/parcel-repo/
启动 Clouder Manager Server (cm-server)
在 cm-serer 上启动 Clouder Manager Server:
[root@cm-server software]# systemctl start cloudera-scm-server [root@cm-server software]# systemctl enable cloudera-scm-server
启动 Clouder Manager Agent
在三台机器上启动 Clouder Manager Agent:
[root@cm-server software]# systemctl start cloudera-scm-agent [root@cm-server software]# systemctl enable cloudera-scm-agent
登录 Clouder Manager 完成集群安装
登录 Clouder ManaManagerger Server 管理界面,浏览器访问地址: http://192.168.1.215:7180 ,默认用户密码为 admin/admin。