云上大数据系列1：手把手教你何如在ECS上搭建Hadoop开发测试环境（CDH版）-阿里云开发者社区

云上大数据系列1：手把手教你何如在ECS上搭建Hadoop开发测试环境（CDH版）

2018-07-02 3225

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云数据库 RDS MySQL，集群系列 2核4GB

RDS MySQL Serverless 基础系列，0.5-2RCU 50GB

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介：

本篇是云上大数据系列第一篇文章，主要介绍开发测试环境的搭建。在后续的文章中，我们还将会分享更多关于云上大数据系统的性能分析和调优经验，敬请期待。

大数据系统是典型的复杂分布式系统，搭建一套大数据系统不但需要大量的资源，还需要对大数据系统本省有一定的了解。云计算的普及使得大数据系统的快速部署，甚至一键部署成为可能。笔者在阿里云上尝试搭建了一套大数据系统，将部署的过程和大家分享一下。

资源环境：ecs.d1.6xlarge × 5
软件系统：CDH 5.14.2
操作系统：CentOS 7.3

以下教程基于Cloudera官方教程，结合笔者实际部署过程中遇到的问题编写而成。读者在实践的过程中可以将本文和官方教程结合来参考。官方教程点这里查看。

教程特点（做好心理准备）：
需要下载 cloudera-manager-daemons 包（744M），cloudera-manager-agent 包（788M），下载过程比较慢，且中途容易出错，需要多次重试。
如果对上述部署方式不满意，还可以尝试官方的第三种方式（预下载安装包并手动安装）：
https://www.cloudera.com/documentation/enterprise/5-13-x/topics/cm_ig_install_path_c.html#cmig_topic_6_7

第一步：购买`ECS`资源：

在阿里云官方网站上购买5台规格为ecs.d1.6xlarge的机器。注意两点：

修改机器名称以区分不同的角色：1台 master，4台 worker，例如cdh-m1, cdh-w1, cdh-w2, cdh-w3, cdh-w4；
点击下单前选择密码登录，并记住登录密码。

第二步：简单配置集群

为所有结点设置免密登录（百度搜索“ssh免密登录”）
修改所有结点 hostname ：

hostname cdh-m1

并同步修改 /etc/hostname 文件

(optional) 为所有结点配置pdsh，方便批量操作。pdsh的基本命令：

pdsh -w cdh-w[1-4] cmd

（可以放在第四步的间隙来做）配置本地数据盘（格式化，挂载，开启自动挂载）

点击这里下载 format.sh脚本。

for i in {1..4}; do scp format.sh root@cdh-w$i:/root; done
pdsh -w cdh-w[1-4] bash /root/format.sh

检查一下是否配置成功（输出为所有 worker 结点本地盘数量总和，4结点是48）：

pdsh -w cdh-w[1-4] df -h | grep "5.1T" | wc -l

其中“5.1T”为数据盘大小，可以根据本地数据盘做修改。

第三步：安装基础服务

登录到 master 结点，安装 MySQL ：详细教程点击这里。对照教程，完成：
- 配置 my.cnf（只需要照着它的推荐配置配就可以了）;
- 备份 ib_logfile；
- 修改 root 用户登录密码；
- 添加到开机自启动；
- 下载 jdbc；
- 创建一些数据库：在 MySQL 中执行脚本：create_databases.sql。点击这里下载脚本。
配置Cloudera源：
下载（点击下载）并将 cloudera-manager.repo 文件拷贝到 /etc/yum.repos.d/
安装jdk-1.7：(下载速度较慢，15min)

sudo yum install oracle-j2sdk1.7

第四步：安装CDH

安装 Cloudera Manager Server Packages：（下载速度较慢，中途可能失败，需要反复重试，利用这个时间空隙，可以完成第二步第4小步）

sudo yum install cloudera-manager-daemons cloudera-manager-server

为 Cloudera Manager 配置本地数据库：

在 MySQL中创建一个服务于 cloudera manager 的数据库，起名叫 cloudera_manager （小写）：

create database cloudera_manager DEFAULT CHARACTER SET utf8;

连接到该数据库：

/usr/share/cmf/schema/scm_prepare_database.sh mysql cloudera_manager root password

启动 Cloudera Manager Server：

sudo service cloudera-scm-server start

在浏览器中打开 http://cdh-m1:7180，此时无响应，需要做端口映射：详细教程可以点击这里了解更多。

我的做法：开两个命令窗口，分别跑两个进程：

ssh -i id_rsa -ND 7180 root@cdh-m1

其中“7180”是准备映射的端口。

/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome --proxy-server="socks5://localhost:7180" --host-resolver-rules="MAP * 0.0.0.0 , EXCLUDE localhost" --user-data-dir=/tmp/

刷新刚才的页面：http://cdh-m1:7180，用户名和密码都是admin。按照提示开始安装过程。由于每台机器都需要安装 jdk 和 cloudera-manager-agent，这两个包的下载速度非常慢，过程可能长达数小时。需要提前做好心里准备（其他准备也做不了）。安装过程中需要注意几个问题：
- 在主机检查阶段，确保所有项目都checked，如果没有，按照提示逐一修复；
- 在服务选择阶段，可以自定义服务，根据需要选择相应的服务，而无需选择所有服务。也可以直接选择所有服务，安装完成后手动停掉不需要的服务，我选择了所有服务（后来我又把不需要的服务都手工删掉了，衰）；
- 在数据库连接阶段，打开 create_databases.sql 文件，并对照填写相应的内容；如果在上一步中选择了 Hue 和 Oozie 服务，那么这里需要为这两个服务配置相应的数据库，详细教程见这里：

Hue：https://www.cloudera.com/documentation/enterprise/5-13-x/topics/hue_dbs_mysql.html#hue_dbs_mysql
Oozie：https://www.cloudera.com/documentation/enterprise/5-13-x/topics/install_oozie_ext_db.html#admin_oozie_ext_db

如果配置 Oozie 的时候需要JDBC，那么建立软链：

ln -s /usr/share/java/mysql-connector-java.jar /opt/cloudera/parcels/CDH/lib/oozie/lib/mysql-connector-java.jar

停止或者删除不需要的服务，并根据 Cloudera Manager 的建议，修复一些其他问题。

第五步：验证安装是否成功：

登录到 master 结点，以 hive 用户连接到 HiveServer2 ：

beeline -u "jdbc:hive2://localhost:10000/default" -n hive

创建一张叫 table_name 的 ORC 事务表：

CREATE TABLE table_name (id int, name string)
CLUSTERED BY (id) INTO 2 BUCKETS
STORED AS ORC
TBLPROPERTIES ("transactional"="true",
  "compactor.mapreduce.map.memory.mb"="2048",
  "compactorthreshold.hive.compactor.delta.num.threshold"="4",
  "compactorthreshold.hive.compactor.delta.pct.threshold"="0.5"
);

插入一条记录并读取：

insert into table_name(id, name) values('1', 'Alex');
select * from table_name;

验证 Hive-on-Spark 是否正常：

set hive.execution.engine=spark;
select count(*) from table_name;

如果输出的结果为1，那么表明安装正常。

到此为止，我们已经成功在ECS上搭建起了一套大数据系统。

云上大数据系列1：手把手教你何如在ECS上搭建Hadoop开发测试环境（CDH版）

第一步：购买`ECS`资源：

第二步：简单配置集群

第三步：安装基础服务

第四步：安装CDH

第五步：验证安装是否成功：

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

云上大数据系列1：手把手教你何如在ECS上搭建Hadoop开发测试环境（CDH版）

第一步：购买ECS资源：

第二步：简单配置集群

第三步：安装基础服务

第四步：安装CDH

第五步：验证安装是否成功：

热门文章

最新文章

相关课程

相关电子书

相关实验场景

第一步：购买`ECS`资源：