通过FastMR自动拉起大数据集群并运行TPCDS任务

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本场景带您体验如何通过FastMR自动搭建大数据集群并运行TPCDS任务。

通过FastMR自动拉起大数据集群并运行TPCDS任务

1. 创建实验资源

开始实验之前,您需要先创建ECS实例资源。

●在实验室页面,单击创建资源

●(可选)在实验室页面左侧导航栏中,单击云产品资源列表,可查看本次实验资源相关信息(例如IP地址、用户信息等)。

说明 :资源创建过程需要5~7分钟。

2. 下载并安装FastMR至跳板机

本步骤将指导您如何在客户机ECS实例上下载并安装FastMR。

1执行如下命令,下载FastMR.

wget -P /root https://mracc.oss-cn-shenzhen.aliyuncs.com/bigdata/fastmr/fastmr.tar.gz

2执行如下命令,解压FastMR。

tar -zxvf fastmr.tar.gz

3执行如下命令,进入fastmr目录。

cd fastmr

4执行如下命令,升级pip3。

pip3 install --upgrade pip

5执行如下命令,安装wheel和setuptools_rust。

pip3 install wheel setuptools_rust paramiko aliyun-python-sdk-core aliyun-python-sdk-ecs oss2 pyopenssl==23.2.0

6执行如下命令,安装FastMR。

pip3 install --force-reinstall fastmr-*-py3-none-any.whl


3. 配置集群

本步骤将指导您如何使用FastMR配置大数据集群和启动,并运行TPC-DS任务。

1执行如下命令,创建配置文件config.ini.example。

vim config/config.ini.example

2按i键进入编辑模式。

3在config.ini.example文件中,填写代码中master、workers的public_ip参数值。多个worker节点ip之间使用逗号分隔。

说明 :

●本实验场景使用DT模式为示例部署大数据集群。

●本实验场景为您提供了三台测试服务器,请您使用云产品资源列表中的ECS节点-1实例作为master,ECS节点-2实例作为worker0,ECS节点-3实例作为worker1,

●master、workers的public_ip参数值请您分别填写为ECS节点-1实例、ECS节点-2实例和ECS节点-3实例的公网地址。

参数说明:

名称

示例值

描述

model

DT

CDT:自动化创建ECS集群、部署大数据环境、完成TPC性能测试。

DT:使用现有ECS集群、部署大数据环境、完成TPC性能测试。

public_ip

/

服务器的公网ip。

usr

root

服务器的用户名。

passwd

123456

服务器的登录密码。

clustername

test-1

集群名称。

skip_setup

False

是否跳过启动集群。

is_mixed

False

hadoop集群是否混合部署

collectd_start

true

是否启动监控

tpcds_run

true

是否执行tpcds测试

data_scale

1

tpcds测试数据量


4按ECS键,退出编辑模式,输入:wq,并按Enter键,保存并退出。

5执行如下命令,启动FastMR,使用FastMR自动搭建大数据集群。

python3 run_fastmr.py config/config.ini.example

6等待程序正常执行完成,表示大数据集群已搭建完成

7执行如下命令,开始运行TPC-DS任务

fastmr run_tpc config/config.ini.example

说明 :

●TPC-DS任务运行时间较长,建议您先进行下一步骤,查看部分TPC-DS测试结果。

4. 查看TPC-DS测试结果

本步骤将指导您如何查看TPC-DS测试结果。

1在实验页面,单击右上角的

图标,,创建新的终端窗口。

2执行如下命令,查看大数据集群TPC-DS测试结果的Spark History地址。

cat /tmp/fastmr_target/test-1/cluster.info

#"test-1" 是config文件里自定义的集群名称。

返回如下结果,您可以看到Spark History地址和TPC-DS测试任务时长。

说明 :TPC-DS测试任务时长大约需要10分钟。在TPC-DS测试任务运行时,您可以在Spark History查看TPC-DS测试任务进度。在TPC-DS测试任务结束后,您才能查看测试任务时长。

3在您的本机浏览器中,打开新页签,在地址栏中访问Spark History地址。

备注:需要本机地址开通目标地址的安全组端口18080,8034

4在Spark History页面,单击Show incomplete applications

5在Spark History页面,单击APP Name为tpcds_datagen的App ID,查看TPC-DS的测试结果。

6在Spark Jobs页面,您可查看到TPC-DS的测试结果。

说明 :因TPC-DS任务运行时间较长,在TPC-DS任务结束前,您只能看到部分测试结果。

实验链接:https://developer.aliyun.com/adc/scenario/9ff8f0f55c674becbdca5a1be336a613

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
6月前
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
分布式计算 大数据 Java
springboot项目集成大数据第三方dolphinscheduler调度器 执行/停止任务
springboot项目集成大数据第三方dolphinscheduler调度器 执行/停止任务
90 0
|
7月前
|
负载均衡 算法 关系型数据库
大数据新视界--大数据大厂之MySQL数据库课程设计:MySQL集群架构负载均衡故障排除与解决方案
本文深入探讨 MySQL 集群架构负载均衡的常见故障及排除方法。涵盖请求分配不均、节点无法响应、负载均衡器故障等现象,介绍多种负载均衡算法及故障排除步骤,包括检查负载均衡器状态、调整算法、诊断修复节点故障等。还阐述了预防措施与确保系统稳定性的方法,如定期监控维护、备份恢复策略、团队协作与知识管理等。为确保 MySQL 数据库系统高可用性提供全面指导。
zdl
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
527 56
|
SQL 存储 大数据
单机顶集群的大数据技术来了
大数据时代,分布式数仓如MPP成为热门技术,但其高昂的成本让人望而却步。对于多数任务,数据量并未达到PB级,单体数据库即可胜任。然而,由于SQL语法的局限性和计算任务的复杂性,分布式解决方案显得更为必要。esProc SPL作为一种开源轻量级计算引擎,通过高效的算法和存储机制,实现了单机性能超越集群的效果,为低成本、高效能的数据处理提供了新选择。
|
存储 分布式计算 监控
大数据增加分区减少单个任务的负担
大数据增加分区减少单个任务的负担
157 1
|
11月前
|
存储 负载均衡 监控
揭秘 Elasticsearch 集群架构,解锁大数据处理神器
Elasticsearch 是一个强大的分布式搜索和分析引擎,广泛应用于大数据处理、实时搜索和分析。本文深入探讨了 Elasticsearch 集群的架构和特性,包括高可用性和负载均衡,以及主节点、数据节点、协调节点和 Ingest 节点的角色和功能。
490 0
|
SQL 分布式计算 NoSQL
大数据-170 Elasticsearch 云服务器三节点集群搭建 测试运行
大数据-170 Elasticsearch 云服务器三节点集群搭建 测试运行
296 4
|
SQL 分布式计算 大数据
大数据-168 Elasticsearch 单机云服务器部署运行 详细流程
大数据-168 Elasticsearch 单机云服务器部署运行 详细流程
338 2
|
2月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
192 14

热门文章

最新文章