云上大数据系列1:手把手教你何如在ECS上搭建Hadoop开发测试环境(CDH版)

本文涉及的产品
RDS Agent(兼容OpenClaw),2核4GB
RDS AI 助手,专业版
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介:

本篇是云上大数据系列第一篇文章,主要介绍开发测试环境的搭建。在后续的文章中,我们还将会分享更多关于云上大数据系统的性能分析和调优经验,敬请期待。

大数据系统是典型的复杂分布式系统,搭建一套大数据系统不但需要大量的资源,还需要对大数据系统本省有一定的了解。云计算的普及使得大数据系统的快速部署,甚至一键部署成为可能。笔者在阿里云上尝试搭建了一套大数据系统,将部署的过程和大家分享一下。

  • 资源环境:ecs.d1.6xlarge × 5
  • 软件系统:CDH 5.14.2
  • 操作系统:CentOS 7.3

以下教程基于Cloudera官方教程,结合笔者实际部署过程中遇到的问题编写而成。读者在实践的过程中可以将本文和官方教程结合来参考。官方教程点这里查看。

教程特点(做好心理准备):
需要下载 cloudera-manager-daemons 包(744M),cloudera-manager-agent 包(788M),下载过程比较慢,且中途容易出错,需要多次重试。
如果对上述部署方式不满意,还可以尝试官方的第三种方式(预下载安装包并手动安装):
https://www.cloudera.com/documentation/enterprise/5-13-x/topics/cm_ig_install_path_c.html#cmig_topic_6_7

第一步:购买ECS资源:

在阿里云官方网站上购买5台规格为ecs.d1.6xlarge的机器。注意两点:

  1. 修改机器名称以区分不同的角色:1台 master,4台 worker,例如cdh-m1, cdh-w1, cdh-w2, cdh-w3, cdh-w4
  2. 点击下单前选择密码登录,并记住登录密码。

第二步:简单配置集群

  1. 所有结点设置免密登录(百度搜索“ssh免密登录”)
  2. 修改所有结点 hostname
hostname cdh-m1

并同步修改 /etc/hostname 文件

  1. (optional) 为所有结点配置pdsh,方便批量操作。pdsh的基本命令:
pdsh -w cdh-w[1-4] cmd
  1. 可以放在第四步的间隙来做)配置本地数据盘(格式化,挂载,开启自动挂载)

点击这里下载 format.sh脚本。

for i in {1..4}; do scp format.sh root@cdh-w$i:/root; done
pdsh -w cdh-w[1-4] bash /root/format.sh

检查一下是否配置成功(输出为所有 worker 结点本地盘数量总和,4结点是48):

pdsh -w cdh-w[1-4] df -h | grep "5.1T" | wc -l

其中“5.1T”为数据盘大小,可以根据本地数据盘做修改。

第三步:安装基础服务

  1. 登录到 master 结点,安装 MySQL :详细教程点击这里。对照教程,完成:

    • 配置 my.cnf(只需要照着它的推荐配置配就可以了);
    • 备份 ib_logfile
    • 修改 root 用户登录密码;
    • 添加到开机自启动;
    • 下载 jdbc
    • 创建一些数据库:在 MySQL 中执行脚本:create_databases.sql。点击这里下载脚本。
  2. 配置Cloudera源:
    下载(点击下载)并将 cloudera-manager.repo 文件拷贝到 /etc/yum.repos.d/
  3. 安装jdk-1.7:(下载速度较慢,15min)
sudo yum install oracle-j2sdk1.7

第四步:安装CDH

  1. 安装 Cloudera Manager Server Packages:(下载速度较慢,中途可能失败,需要反复重试,利用这个时间空隙,可以完成第二步第4小步
sudo yum install cloudera-manager-daemons cloudera-manager-server
  1. Cloudera Manager 配置本地数据库:

在 MySQL中创建一个服务于 cloudera manager 的数据库,起名叫 cloudera_manager (小写):

create database cloudera_manager DEFAULT CHARACTER SET utf8;

连接到该数据库:

/usr/share/cmf/schema/scm_prepare_database.sh mysql cloudera_manager root password
  1. 启动 Cloudera Manager Server
sudo service cloudera-scm-server start
  1. 在浏览器中打开 http://cdh-m1:7180,此时无响应,需要做端口映射:详细教程可以点击这里了解更多。

我的做法:开两个命令窗口,分别跑两个进程:

ssh -i id_rsa -ND 7180 root@cdh-m1

其中“7180”是准备映射的端口。

/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome --proxy-server="socks5://localhost:7180" --host-resolver-rules="MAP * 0.0.0.0 , EXCLUDE localhost" --user-data-dir=/tmp/
  1. 刷新刚才的页面:http://cdh-m1:7180,用户名和密码都是admin。按照提示开始安装过程。由于每台机器都需要安装 jdkcloudera-manager-agent,这两个包的下载速度非常慢,过程可能长达数小时。需要提前做好心里准备(其他准备也做不了)。安装过程中需要注意几个问题:

    • 在主机检查阶段,确保所有项目都checked,如果没有,按照提示逐一修复;
    • 在服务选择阶段,可以自定义服务,根据需要选择相应的服务,而无需选择所有服务。也可以直接选择所有服务,安装完成后手动停掉不需要的服务,我选择了所有服务(后来我又把不需要的服务都手工删掉了,衰);
    • 在数据库连接阶段,打开 create_databases.sql 文件,并对照填写相应的内容;如果在上一步中选择了 HueOozie 服务,那么这里需要为这两个服务配置相应的数据库,详细教程见这里:

Huehttps://www.cloudera.com/documentation/enterprise/5-13-x/topics/hue_dbs_mysql.html#hue_dbs_mysql
Ooziehttps://www.cloudera.com/documentation/enterprise/5-13-x/topics/install_oozie_ext_db.html#admin_oozie_ext_db

如果配置 Oozie 的时候需要JDBC,那么建立软链:

ln -s /usr/share/java/mysql-connector-java.jar /opt/cloudera/parcels/CDH/lib/oozie/lib/mysql-connector-java.jar
  • 停止或者删除不需要的服务,并根据 Cloudera Manager 的建议,修复一些其他问题。

第五步:验证安装是否成功:

  1. 登录到 master 结点,以 hive 用户连接到 HiveServer2
beeline -u "jdbc:hive2://localhost:10000/default" -n hive
  1. 创建一张叫 table_nameORC 事务表:
CREATE TABLE table_name (id int, name string)
CLUSTERED BY (id) INTO 2 BUCKETS
STORED AS ORC
TBLPROPERTIES ("transactional"="true",
  "compactor.mapreduce.map.memory.mb"="2048",
  "compactorthreshold.hive.compactor.delta.num.threshold"="4",
  "compactorthreshold.hive.compactor.delta.pct.threshold"="0.5"
);
  1. 插入一条记录并读取:
insert into table_name(id, name) values('1', 'Alex');
select * from table_name;
  1. 验证 Hive-on-Spark 是否正常:
set hive.execution.engine=spark;
select count(*) from table_name;

如果输出的结果为1, 那么表明安装正常。

到此为止,我们已经成功在ECS上搭建起了一套大数据系统。

相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
数据采集 算法 测试技术
【硬件测试】基于FPGA的1024QAM基带通信系统开发与硬件片内测试,包含信道模块,误码统计模块,可设置SNR
本文介绍了基于FPGA的1024QAM基带通信系统的硬件测试版本,包含testbench、高斯信道模块和误码率统计模块。系统新增ila在线数据采集和vio在线SNR设置模块,支持不同SNR条件下的性能测试。1024QAM调制将10比特映射到复平面上的1024个星座点之一,实现高效数据传输。硬件测试结果表明,在SNR=32dB和40dB时,系统表现出良好的性能。Verilog核心程序展示了各模块的连接与功能实现。
396 7
|
机器学习/深度学习 人工智能 并行计算
AI部署架构:A100、H100、A800、H800、H20的差异以及如何选型?开发、测试、生产环境如何进行AI大模型部署架构?
AI部署架构:A100、H100、A800、H800、H20的差异以及如何选型?开发、测试、生产环境如何进行AI大模型部署架构?
AI部署架构:A100、H100、A800、H800、H20的差异以及如何选型?开发、测试、生产环境如何进行AI大模型部署架构?
|
9月前
|
存储 测试技术 API
数据驱动开发软件测试脚本
今天刚提交了我的新作《带着ChatGPT玩转软件开发》给出版社,在写作期间跟着ChatGPT学到许多新知识。下面分享数据驱动开发软件测试脚本。
381 0
|
传感器 人工智能 JavaScript
鸿蒙开发:DevEcoTesting中的稳定性测试
DevEcoTesting主要的目的也是用于软件的测试,可以让开发者无需复杂的配置,即可一键执行测试任务,同时提供了测试报告和分析,无论是对于开发者还是测试同学来说,都是一个非常方便的工具。
356 3
鸿蒙开发:DevEcoTesting中的稳定性测试
|
11月前
|
敏捷开发 运维 数据可视化
DevOps看板工具中的协作功能:如何打破开发、测试与运维之间的沟通壁垒
在DevOps实践中,看板工具通过可视化任务管理和自动化流程,提升开发与运维团队的协作效率。它支持敏捷开发、持续交付,助力团队高效应对需求变化,实现跨职能协作与流程优化。
|
11月前
|
运维 jenkins 测试技术
"还在苦等开发部署环境?3步教你用Jenkins拿回测试主动权"
测试工程师最头疼的问题是什么?依赖开发部署环境! 开发延期→测试时间被压缩→紧急上线后BUG频出→测试背锅。传统流程中,测试被动等待部署,效率低下。而Jenkins自动化部署让测试人员自主搭建环境,实现: ✅ 随时触发测试,不再苦等开发 ✅ 部署效率提升10倍,抢回测试时间 ✅ 改善团队协作,减少互相甩锅 学习Jenkins部署能力,成为高效测试工程师,告别被动等待!
|
数据采集 算法 数据安全/隐私保护
【硬件测试】基于FPGA的4ASK调制解调通信系统开发与硬件片内测试,包含信道模块,误码统计模块,可设置SNR
本文介绍了基于FPGA的4ASK调制解调系统的硬件测试版本,该系统包括testbench、高斯信道模块和误码率统计模块,并新增了ILA在线数据采集和VIO在线SNR设置功能。通过VIO设置不同SNR(如15dB和25dB),实现了对系统性能的实时监测与调整。4ASK是一种通过改变载波幅度表示数据的数字调制方式,适用于多种通信场景。FPGA平台的高效性和灵活性使其成为构建高性能通信系统的理想选择。
399 17
|
数据采集 算法 数据安全/隐私保护
【硬件测试】基于FPGA的4FSK调制解调通信系统开发与硬件片内测试,包含信道模块,误码统计模块,可设置SNR
本文基于之前的文章《基于FPGA的4FSK调制解调系统》,增加了ILA在线数据采集模块和VIO在线SNR设置模块,实现了硬件测试版本。通过VIO设置不同SNR(如10dB和20dB),并展示了ILA采集的数据结果。四频移键控(4FSK)是一种数字调制方法,利用四个不同频率传输二进制数据,具有较高的频带利用率和抗干扰性能。输入的二进制数据分为两组,每组两个比特,对应四个频率f1、f2、f3、f4,分别代表二进制组合00、01、10、11。调制过程中选择相应频率输出,并进行幅度调制以增强抗干扰能力。接收端通过带通滤波器提取信号并还原为原始二进制数据。
390 7
|
数据采集 算法 数据处理
【硬件测试】基于FPGA的256QAM基带通信系统开发与硬件片内测试,包含信道模块,误码统计模块,可设置SNR
本文介绍了基于FPGA的256QAM基带通信系统的硬件测试版本,包含testbench、高斯信道模块和误码率统计模块。系统新增ila在线数据采集和vio在线SNR设置模块,支持不同信噪比(如30dB和40dB)的仿真测试,并提供配套操作视频。256QAM调制方案每个符号携带8比特信息,通过复数值星座图映射实现高效传输。Verilog代码展示了核心模块设计,包括SNR设置、数据处理和ILA测试分析,确保系统在实际硬件环境中的稳定性和性能。
367 2
|
数据采集 算法 数据安全/隐私保护
【硬件测试】基于FPGA的64QAM基带通信系统开发与硬件片内测试,包含信道模块,误码统计模块,可设置SNR
本文介绍了基于FPGA的64QAM基带通信系统的硬件测试版本,包含testbench、高斯信道模块和误码率统计模块。系统新增ila在线数据采集模块和vio在线SNR设置模块,支持不同SNR条件下的仿真与测试。通过设置SNR为25dB和30dB进行测试,验证了系统的可行性和性能。此外,本文详细阐述了64QAM调制解调的工作原理,包括信号生成、调制、解调及误码率测试等环节,并提供了Verilog核心程序代码。
306 0