通过FastMR自动拉起大数据集群并运行TPCDS任务
1. 创建实验资源
开始实验之前,您需要先创建ECS实例资源。
●在实验室页面,单击创建资源。
●(可选)在实验室页面左侧导航栏中,单击云产品资源列表,可查看本次实验资源相关信息(例如IP地址、用户信息等)。
说明 :资源创建过程需要5~7分钟。
2. 下载并安装FastMR至跳板机
本步骤将指导您如何在客户机ECS实例上下载并安装FastMR。
1执行如下命令,下载FastMR.
wget -P /root https://mracc.oss-cn-shenzhen.aliyuncs.com/bigdata/fastmr/fastmr.tar.gz
2执行如下命令,解压FastMR。
tar -zxvf fastmr.tar.gz
3执行如下命令,进入fastmr目录。
cd fastmr
4执行如下命令,升级pip3。
pip3 install --upgrade pip
5执行如下命令,安装wheel和setuptools_rust。
pip3 install wheel setuptools_rust paramiko aliyun-python-sdk-core aliyun-python-sdk-ecs oss2 pyopenssl==23.2.0
6执行如下命令,安装FastMR。
pip3 install --force-reinstall fastmr-*-py3-none-any.whl
3. 配置集群
本步骤将指导您如何使用FastMR配置大数据集群和启动,并运行TPC-DS任务。
1执行如下命令,创建配置文件config.ini.example。
vim config/config.ini.example
2按i键进入编辑模式。
3在config.ini.example文件中,填写代码中master、workers的public_ip参数值。多个worker节点ip之间使用逗号分隔。
说明 :
●本实验场景使用DT模式为示例部署大数据集群。
●本实验场景为您提供了三台测试服务器,请您使用云产品资源列表中的ECS节点-1实例作为master,ECS节点-2实例作为worker0,ECS节点-3实例作为worker1,
●master、workers的public_ip参数值请您分别填写为ECS节点-1实例、ECS节点-2实例和ECS节点-3实例的公网地址。
参数说明:
名称 |
示例值 |
描述 |
model |
DT |
CDT:自动化创建ECS集群、部署大数据环境、完成TPC性能测试。 DT:使用现有ECS集群、部署大数据环境、完成TPC性能测试。 |
public_ip |
/ |
服务器的公网ip。 |
usr |
root |
服务器的用户名。 |
passwd |
123456 |
服务器的登录密码。 |
clustername |
test-1 |
集群名称。 |
skip_setup |
False |
是否跳过启动集群。 |
is_mixed |
False |
hadoop集群是否混合部署 |
collectd_start |
true |
是否启动监控 |
tpcds_run |
true |
是否执行tpcds测试 |
data_scale |
1 |
tpcds测试数据量 |
4按ECS键,退出编辑模式,输入:wq,并按Enter键,保存并退出。
5执行如下命令,启动FastMR,使用FastMR自动搭建大数据集群。
python3 run_fastmr.py config/config.ini.example
6等待程序正常执行完成,表示大数据集群已搭建完成
7执行如下命令,开始运行TPC-DS任务
fastmr run_tpc config/config.ini.example
说明 :
●TPC-DS任务运行时间较长,建议您先进行下一步骤,查看部分TPC-DS测试结果。
4. 查看TPC-DS测试结果
本步骤将指导您如何查看TPC-DS测试结果。
1在实验页面,单击右上角的
图标,,创建新的终端窗口。
2执行如下命令,查看大数据集群TPC-DS测试结果的Spark History地址。
cat /tmp/fastmr_target/test-1/cluster.info
#"test-1" 是config文件里自定义的集群名称。
返回如下结果,您可以看到Spark History地址和TPC-DS测试任务时长。
说明 :TPC-DS测试任务时长大约需要10分钟。在TPC-DS测试任务运行时,您可以在Spark History查看TPC-DS测试任务进度。在TPC-DS测试任务结束后,您才能查看测试任务时长。
3在您的本机浏览器中,打开新页签,在地址栏中访问Spark History地址。
备注:需要本机地址开通目标地址的安全组端口18080,8034
4在Spark History页面,单击Show incomplete applications。
5在Spark History页面,单击APP Name为tpcds_datagen的App ID,查看TPC-DS的测试结果。
6在Spark Jobs页面,您可查看到TPC-DS的测试结果。
说明 :因TPC-DS任务运行时间较长,在TPC-DS任务结束前,您只能看到部分测试结果。
实验链接:https://developer.aliyun.com/adc/scenario/9ff8f0f55c674becbdca5a1be336a613