通过FastMR自动拉起大数据集群并运行TPCDS任务
1. 创建实验资源
开始实验之前,您需要先创建ECS实例资源。
- 在实验室页面,单击创建资源。
- (可选)在实验室页面左侧导航栏中,单击云产品资源列表,可查看本次实验资源相关信息(例如IP地址、用户信息等)。
说明 :资源创建过程需要5~7分钟。
2. 下载并安装FastMR至跳板机
本步骤将指导您如何在客户机ECS实例上下载并安装FastMR。
- 执行如下命令,下载FastMR.
wget -P /root http://fastmr-beijing.oss-cn-beijing.aliyuncs.com/yunqi_Lab/fastmr.tar.gz
- 执行如下命令,解压FastMR。
tar -zxvf fastmr.tar.gz
- 执行如下命令,进入fastmr目录。
cd fastmr
- 执行如下命令,升级pip3。
pip3 install --upgrade pip
- 执行如下命令,安装wheel和setuptools_rust。
pip3 install wheel setuptools_rust
- 执行如下命令,安装FastMR。
pip3 install --force-reinstall fastmr-1.0.0-py3-none-any.whl
3. 配置集群
本步骤将指导您如何使用FastMR配置大数据集群和启动,并运行TPC-DS任务。
- 执行如下命令,创建配置文件config.ini.example。
vim config/config.ini.example
- 按i键进入编辑模式。
- 在config.ini.example文件中,填写代码中master、worker0和worker1的public_ip参数值。
说明 :
- 本实验场景使用DT模式为示例部署大数据集群。
- 本实验场景为您提供了三台测试服务器,请您使用云产品资源列表中的ECS节点-1实例作为master,ECS节点-2实例作为worker0,ECS节点-3实例作为worker1,
- master、worker0和worker1的public_ip参数值请您分别填写为ECS节点-1实例、ECS节点-2实例和ECS节点-3实例的公网地址。
参数说明:
名称 |
示例值 |
描述 |
model |
DT |
CDT:自动化创建ECS集群、部署大数据环境、完成TPC性能测试。 DT:使用现有ECS集群、部署大数据环境、完成TPC性能测试。 |
public_ip |
/ |
服务器的公网ip。 |
usr |
root |
服务器的用户名。 |
passwd |
Aliyun2022!! |
服务器的登录密码。 |
clustername |
example |
集群名称。 |
machines |
3 |
集群机器数量。 |
skip_setup |
False |
是否跳过启动集群。 |
spot |
False |
|
[cmd] total_disk_num |
3 |
实例挂盘总数,包括本地盘和云盘。 |
[cmd] local_disk_type |
none |
本地盘类型。本地盘类型为HDD时不需要配置, SSD本地盘机型配置为nvme。 |
[hadoop] version |
3.2.1 |
hadoop版本。 |
[spark] version |
3.2.1-bin-hadoop3.2 |
spark版本。 |
[spark] executor_core |
4 |
executor核数。 |
[hive] version |
2.3.7-bin |
hive版本。 |
[tpcxhs] run |
True |
是否运行TPCx-HS测试。 True表示运行TPCx-HS测试。 False表示不运行TPCx-HS测试。 |
[tpcxhs] scaleFactor |
1 |
TPCx-HS测试的数据量。 其中scaleFactor=1表示100GB数据量,scaleFactor=2表示1TB数据量,scaleFactor=3表示3TB数据量,scaleFactor=4表示10TB数据量,scaleFactor=5表示30TB数据量。 |
[tpcds] run |
True |
是否运行TPC-DS测试。 True表示运行TPC-DS测试。 False表示不运行TPC-DS测试。 |
[tpcds] scaleFactor |
10 |
TPC-DS测试的数据量。 其中scaleFactor=10表示10GB数据量,scaleFactor=100表示100GB数据量,scaleFactor=1000表示1TB数据量,scaleFactor=3000表示3TB数据量,scaleFactor =10000表示10TB数据量。 |
[other] killAfterRun |
False |
运行结束是否释放集群。 True表示释放集群。 False表示不释放集群。 |
[dataLake] dataLake |
False |
是否安装数据湖场景。 True表示安装数据湖场景。 False表示不安装数据湖场景。 |
[dataLake] alluxioVersion |
2.7.1 |
alluxio版本。 |
- 按ECS键,退出编辑模式,输入:wq,并按Enter键,保存并退出。
- 执行如下命令,启动FastMR,使用FastMR自动搭建大数据集群并运行TPC-DS任务。
python3 fastmr.py config/config.ini.example
返回如下结果,请您耐心等待大约10分钟,当出现TPC-DS is running时,表示大数据集群已搭建完成,正在运行TPC-DS任务。
说明 :
- TPC-DS任务运行时间较长,建议您先进行下一步骤,查看部分TPC-DS测试结果。
- 如果您启动FastMR后出现如下图报错,请您执行如下命令后,重新启动FastMR。
exit ssh root@[master的public_ip] yum remove mysql ssh root@[客户机ECS公网地址]
4. 查看TPC-DS测试结果
本步骤将指导您如何查看TPC-DS测试结果。
- 在实验页面,单击右上角的 图标,,创建新的终端窗口。
- 执行如下命令,查看大数据集群TPC-DS测试结果的Spark History地址。
cat /root/fastmr/target/example/cluster.info
返回如下结果,您可以看到Spark History地址和TPC-DS测试任务时长。
说明 :TPC-DS测试任务时长大约需要30分钟。在TPC-DS测试任务运行时,您可以在Spark History查看TPC-DS测试任务进度。在TPC-DS测试任务结束后,您才能查看测试任务时长。
- 在您的本机浏览器中,打开新页签,在地址栏中访问Spark History地址。
- 在Spark History页面,单击Show incomplete applications。
- 在Spark History页面,单击APP Name为tpcds_datagen的App ID,查看TPC-DS的测试结果。
- 在Spark Jobs页面,您可查看到TPC-DS的测试结果。
说明 :因TPC-DS任务运行时间较长,在TPC-DS任务结束前,您只能看到部分测试结果。
实验链接:https://developer.aliyun.com/adc/scenario/9ff8f0f55c674becbdca5a1be336a613