超详细!搭建本地大数据研发环境(16G内存+CDH)(二)

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 超详细!搭建本地大数据研发环境(16G内存+CDH)(二)

三、使用CDH搭建Hadoop集群环境


CDH(Cloudera’s Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。

我们使用CDH6.3.2的版本进行安装。

CDH分为Cloudera Manager管理平台和CDH parcel(parcel包含各种组件的安装包),需要先安装CM,再安装parcel。

CM 6.3.1,CDH 6.3.2 (6.3.3版本及以上的要收费了)

组件版本支持情况

https://docs.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_cdh_63_packaging.html#cdh_630_packaging

准备工作

1、修改文件打开限制

vi /etc/security/limits.conf
* soft nofile 65536
* hard nofile 65536
* soft nproc 131072
* soft nproc 131072

2、关闭防火墙

systemctl disable firewalld
systemctl stop firewalld

3、修改主机名及hosts

依次修改主机名
vi /etc/hostname
修改hosts文件
vi /etc/hosts
192.168.137.101 node01
192.168.137.102 node02
192.168.137.103 node03
生效
source /etc/hosts

4、免密设置

node01 设置

ssh-keygen -t rsa
一路回车
ssh-copy-id node02
ssh-copy-id node03
输入密码

5、安装jdk

scp jdk-8u221-linux-x64.rpm node02:/opt/
scp jdk-8u221-linux-x64.rpm node03:/opt/
rpm -ivh jdk-8u221-linux-x64.rpm
java -version
vim /etc/profile
# 末尾追加以下内容
export JAVA_HOME=/usr/java/default
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
source /etc/profile
echo $JAVA_HOME

6、关闭selinux

//临时生效selinux设置
setenforce 0
//修改配置文件
vi /etc/selinux/config
把SELINUX=enforcing修改为SELINUX=disabled

7、安装ntp服务

// 安装 ntp 服务
yum install -y ntp
// 开启并设置开机自启ntp服务
systemctl start ntpd
systemctl enable ntpd
// 查看ntp服务状态
systemctl status ntpd

8、node01安装Mysql

移除mariadb  
yum remove mariadb-libs.x86_64
wget https://dev.mysql.com/get/mysql80-community-release-el7-1.noarch.rpm
yum localinstall ./mysql80-community-release-el7-1.noarch.rpm
yum install mysql-community-server
service mysqld start 
# 查看临时密码
grep 'temporary password' /var/log/mysqld.log
# 登录
mysql -uroot -p
# 输入刚才的密码
ALTER USER 'root'@'localhost' IDENTIFIED BY 'Bigdataflowing@123';
# 新建scm用户
CREATE USER 'scm'@'%' IDENTIFIED BY 'Bigdataflowing@123';
grant all privileges on *.* to 'scm'@'%' with grant option;
flush privileges;

新建CDH所需的数据库:

CREATE DATABASE scm DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
CREATE DATABASE metastore DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
CREATE DATABASE reports DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
create user 'root'@'localhost' identified by  'Bigdataflowing@123';
grant all privileges on *.* to 'root'@'%' with grant option;
flush privileges;

9、各节点准备mysql8的驱动

wget https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.46.tar.gz
tar -zxf mysql-connector-java-5.1.46.tar.gz
mkdir /usr/share/java/
cp mysql-connector-java-5.1.46/mysql-connector-java-5.1.46-bin.jar /usr/share/java/mysql-connector-java.jar

安装CDH

1、配置本地yum源

node01 安装httpd createrepo并设置开机自启动:
yum -y install httpd createrepo
systemctl start httpd
systemctl enable httpd
将包放在目录下
mkdir -p /var/www/html/cloudera-repos/cm6
将文件传入此目录下
createrepo .
配置本地yum源
备份  cp -r /etc/yum.repos.d  /etc/yum.repos.d.bak
cd /etc/yum.repos.d/
vim cloudera-manager.repo
[cloudera-manager]
name=Cloudera Manager 6.3.1
baseurl=http://node01/cloudera-repos/cm6
gpgcheck=0
enabled=1
yum clean all && yum makecache

验证成功,浏览器访问 http://192.168.127.101/cloudera-repos/cm6/

image.png

分发包
scp -r cloudera-manager.repo root@node02:$PWD
scp -r cloudera-manager.repo root@node03:$PWD
其他节点
yum clean all && yum makecache

node01安装cloudera manager server

yum install cloudera-manager-daemons cloudera-manager-agent cloudera-manager-server
安装完CM后/opt/ 下会出现cloudera目录,上传cdh parcel 文件到/opt/cloudera/parcel-repo/
chown -R cloudera-scm:cloudera-scm /opt/cloudera/parcel-repo/*

初始化数据库

cd /opt/cloudera/cm/schema/   
./scm_prepare_database.sh -h localhost -P 3306 mysql scm scm Bigdataflowing@123
成功消息
[main] DbCommandExecutor              INFO  Successfully connected to database.
All done, your SCM database is configured correctly!

3、node02 node03安装agent

yum install -y cloudera-manager-daemons cloudera-manager-agent
配置Agent文件:vim /etc/cloudera-scm-agent/config.ini
将 server_host=localhost
更改为: server_host=node01

启动

server 和agent 一起启动,报错看log /var/log/cloudera-scm-server

node01

systemctl start cloudera-scm-server
systemctl enable cloudera-scm-server

node02 node03

systemctl start cloudera-scm-agent & systemctl enable cloudera-scm-agent

访问网址 http://192.168.137.101:7180/cmf/login成功!

账号密码 admin/admin

image.png

那么CDH管理工具已经安装完成,下面我们使用CDH安装Hadoop集群环境。


四、安装部署HADOOP大数据集群


开始安装image.png

同意条款

image.png

选择安装版本,可以选择试用或者免费版

image.png

开始安装,输入集群名称

image.png

选择主机

image.png

这里有坑,直接选择后边没法改存储库

这里可以点上方按钮进入主页,先删除主机,再加回来image.png

image.png

按下面设置好,大部分已经默认

image.png

JDK已经安装 不用选image.png

机器账号密码

image.png

这里会做一些检测,基本是一些警告,选择 i understand 继续。

image.png

下面进入到组件的安装,由于内存有限,我们选择自定义服务,先只安装hdfs和hive,zookeeper,其他的组件后续也可以增加。

image.png

要设置节点的分配,尽量平均就可以。image.png

这里全部连node01的mysql库

image.png

一些hdfs设置,可以默认image.png

等待安装中。。

image.png

安装基本完成。

image.png

安装完成!可以愉快的玩耍了。

image.png


踩坑大全


1、客户机操作系统已禁用 CPU,请关闭或重置虚拟机。

大部分是Vmvare版本及镜像问题,使用Vmvare16.1.2版本

2、mysql版本:'for the right syntax to use near 'identified by 'password' with grant option'

问题分析:mysql版本8.0.13,在给新用户授权时,发生了变化:

1064 - You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'identified by 'password' with grant option' at line 5, Time: 0.000000s

出错的语句:

grant all privileges on . to 'root'@'172.16.10.203' identified by 'password' with grant option

修正后的语句:分开三次执行

创建账户

create user 'root'@'172.16.10.203' identified by 'password'

赋予权限,with grant option这个选项表示该用户可以将自己拥有的权限授权给别人

grant all privileges on . to 'root'@'172.16.10.203' with grant option

改密码&授权超用户,flush privileges 命令本质上的作用是将当前user和privilige表中的用户信息/权限设置从mysql库(MySQL数据库的内置库)中提取到内存里

flush privileges;

3、missing requires of libmysqlclient.so.18()(64bit)

错误提示安装依赖的库文件没有找到:libmysqlclient.so.18()(64bit)

解决: 缺少Percona-XtraDB-Cluster-shared-55-5.5.37-25.10.756.el6.x86_64.rpm这个包

wget http://www.percona.com/redir/downloads/Percona-XtraDB-Cluster/5.5.37-25.10/RPM/rhel6/x86_64/Percona-XtraDB-Cluster-shared-55-5.5.37-25.10.756.el6.x86_64.rpm

rpm -ivh Percona-XtraDB-Cluster-shared-55-5.5.37-25.10.756.el6.x86_64.rpm

4、cm启动后无法访问

centos7会开启ipv6,需要禁用掉

vi /etc/default/grub

GRUB_CMDLINE_LINUX="ipv6.disable=1 crashkernel=auto rd.lvm.lv=centos/root rd.lvm.lv=centos/swap rhgb quiet"

grub2-mkconfig -o /boot/grub2/grub.cfg

5、Parcel hash file missing: CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel.sha

缺少CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel.sha文件,添加到指定目录

6、Could not retrieve mirrorlist http://mirrorlist.centos.org/?release=7&arch=x86_64&repo=os&infra=stock error was

14: curl#6 - "Could not resolve host: mirrorlist.centos.org; Unknown error"

yum源有问题,修改 /etc/yum.repos.d下yum配置文件

7、无法安装 cloudera-manager-agent 包

查看log看具体报错信息

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
存储 数据可视化 数据挖掘
大数据环境下的房地产数据分析与预测研究的设计与实现
本文介绍了一个基于Python大数据环境下的昆明房地产市场分析与预测系统,通过数据采集、清洗、分析、机器学习建模和数据可视化技术,为房地产行业提供决策支持和市场洞察,探讨了模型的可行性、功能需求、数据库设计及实现过程,并展望了未来研究方向。
大数据环境下的房地产数据分析与预测研究的设计与实现
|
1月前
|
分布式计算 并行计算 大数据
【数据挖掘】百度2015大数据云计算研发笔试卷
百度2015年大数据云计算研发笔试卷的题目总结,涵盖了Hadoop、Spark、MPI计算框架特点、TCP连接建立过程、数组最大和问题、二分查找实现以及灯泡开关问题,提供了部分题目的解析和伪代码。
43 1
|
30天前
|
SQL 分布式计算 大数据
"大数据计算难题揭秘:MaxCompute中hash join内存超限,究竟该如何破解?"
【8月更文挑战第20天】在大数据处理领域,阿里云的MaxCompute以高效稳定著称,但复杂的hash join操作常导致内存超限。本文通过一个实例解析此问题:数据分析师小王需对两个共计300GB的大表进行join,却遭遇内存不足。经分析发现,单个mapper任务内存默认为2GB,不足以支持大型hash表的构建。为此,提出三种解决方案:1) 提升mapper任务内存;2) 利用map join优化小表连接;3) 实施分而治之策略,将大表分割后逐一处理再合并结果。这些方法有助于提升大数据处理效率及稳定性。
48 0
|
2月前
|
JSON 分布式计算 大数据
MaxCompute操作报错合集之连接环境时,出现报错:TypeError: access_id and secret_access_key,该怎么解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
2月前
|
分布式计算 DataWorks Java
DataWorks操作报错合集之使用ODPS Tunnel Upload功能时,遇到报错:Java 堆内存不足,该如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
2月前
|
设计模式 安全 Java
Java面试题:设计模式如单例模式、工厂模式、观察者模式等在多线程环境下线程安全问题,Java内存模型定义了线程如何与内存交互,包括原子性、可见性、有序性,并发框架提供了更高层次的并发任务处理能力
Java面试题:设计模式如单例模式、工厂模式、观察者模式等在多线程环境下线程安全问题,Java内存模型定义了线程如何与内存交互,包括原子性、可见性、有序性,并发框架提供了更高层次的并发任务处理能力
60 1
|
2月前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute产品使用合集之如何查看空间资源、CPU和内存以及存储空间容量
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
2月前
|
设计模式 安全 Java
Java面试题:如何实现一个线程安全的单例模式,并确保其在高并发环境下的内存管理效率?如何使用CyclicBarrier来实现一个多阶段的数据处理任务,确保所有阶段的数据一致性?
Java面试题:如何实现一个线程安全的单例模式,并确保其在高并发环境下的内存管理效率?如何使用CyclicBarrier来实现一个多阶段的数据处理任务,确保所有阶段的数据一致性?
42 0
|
2月前
|
设计模式 并行计算 安全
Java面试题:如何使用设计模式优化多线程环境下的资源管理?Java内存模型与并发工具类的协同工作,描述ForkJoinPool的工作机制,并解释其在并行计算中的优势。如何根据任务特性调整线程池参数
Java面试题:如何使用设计模式优化多线程环境下的资源管理?Java内存模型与并发工具类的协同工作,描述ForkJoinPool的工作机制,并解释其在并行计算中的优势。如何根据任务特性调整线程池参数
38 0
|
2月前
|
存储 安全 Java
Java面试题:假设你正在开发一个Java后端服务,该服务需要处理高并发的用户请求,并且对内存使用效率有严格的要求,在多线程环境下,如何确保共享资源的线程安全?
Java面试题:假设你正在开发一个Java后端服务,该服务需要处理高并发的用户请求,并且对内存使用效率有严格的要求,在多线程环境下,如何确保共享资源的线程安全?
49 0

热门文章

最新文章