阿里云E-MapReduce Hadoop MapReduce 作业配置

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介:

1.登录阿里云 E-MapReduce 控制台作业列表

2.单击该页右上角的创建作业,进入创建作业页面。

3.填写作业名称。

4.选择 Hadoop 作业类型。表示创建的作业是一个 Hadoop Mapreduce 作业。这种类型的作业,其后台实际上是通过以下的方式提交的 Hadoop 作业。

hadoop jar xxx.jar [MainClass] -Dxxx ....
5.在应用参数中填写提交该 job 需要提供的命令行参数。这里需要说明的是,这个选项框中需要填写的内容从 hadoop jar 后面的第一个参数开始填写。也就是说,选项框中第一个要填写的是运行该作业需要提供的 jar 包所在地址,然后后面紧跟 [MainClass] 以及其他用户可以自行提供的命令行参数。

举个例子,假设用户想要提交一个 Hadoop 的 sleep job,该 jo b不读写任何数据,只是提交一些 mapper 和 reducer task 到集群中,每个 task sleep 一段时间,然后 job 成功。在 Hadoop 中(hadoop-2.6.0 为例)以,该 job 被打包在 Hadoop 发行版的 hadoop-mapreduce-client-jobclient-2.6.0-tests.jar 中。那么,若是在命令行中提交该 job,则命令如下:

hadoop jar /path/to/hadoop-mapreduce-client-jobclient-2.6.0-tests.jar sleep -m 3 -r 3 -mt 100 -rt 100
要在 E-MapReduce 中配置这个作业,那么作业配置页面的“应用参数”选项框中,需要填写的内容即为:

/path/to/hadoop-mapreduce-client-jobclient-2.6.0-tests.jar sleep -m 3 -r 3 -mt 100 -rt 100

需要注意的是,这里用的 jar 包路径是 E-MapReduce 宿主机上的一个绝对路径,这种方式有一个问题,就是用户可能会将这些 jar 包放置在任何位置,而且随着集群的创建和释放,这些 jar 包也会跟着释放而变得不可用。所以,请使用以下方法:

用户将自己的 jar 包上传到 OSS 的 bucket 中进行存储,当配置 Hadoop 的参数时,单击选择 OSS 路径,从 OSS 目录中进行选择要执行的 jar 包。系统会为用户自动补齐 jar 包所在的 OSS 地址。请务必将代码的 jar 的前缀切换为 ossref (单击切换资源类型),以保证这个 jar 包会被 E-MapReduce 正确下载。

单击确定,该 jar 包所在的 OSS 路径地址就会自动填充到“应用参数”选项框中。作业提交的时候,系统能够根据这个路径地址自动从 OSS 找到相应的 jar 包。

在该 OSS 的 jar 包路径后面,即可进一步填写作业运行的其他命令行参数。

6.选择执行失败后策略。

7.单击确认,作业配置即定义完成。

上面的例子中,sleep job 并没有数据的输入输出,如果作业要读取数据,并输出处理结果(比如 wordcount),则需要指定数据的 input 路径和 output 路径。用户可以读写 E-MapReduce 集群 HDFS 上的数据,同样也可以读写 OSS 上的数据。如果需要读写 OSS 上的数据,只需要在填写 input 路径和 output 路径时,数据路径写成 OSS 上的路径地址即可,例如:

jar ossref://emr/checklist/jars/chengtao/hadoop/hadoop-mapreduce-examples-2.6.0.jar randomtextwriter  -D mapreduce.randomtextwriter.totalbytes=320000 oss://emr/checklist/data/chengtao/hadoop/Wordcount/Input
相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
29天前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
61 2
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
81 3
|
1月前
|
分布式计算 资源调度 数据可视化
Hadoop-06-Hadoop集群 历史服务器配置 超详细 执行任务记录 JobHistoryServer MapReduce执行记录 日志聚合结果可视化查看
Hadoop-06-Hadoop集群 历史服务器配置 超详细 执行任务记录 JobHistoryServer MapReduce执行记录 日志聚合结果可视化查看
30 1
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
44 1
|
2月前
|
资源调度 分布式计算 Hadoop
使用YARN命令管理Hadoop作业
本文介绍了如何使用YARN命令来管理Hadoop作业,包括查看作业列表、检查作业状态、杀死作业、获取作业日志以及检查节点和队列状态等操作。
50 1
使用YARN命令管理Hadoop作业
|
30天前
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
78 0
|
30天前
|
SQL 分布式计算 关系型数据库
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
34 0
|
30天前
|
SQL 分布式计算 关系型数据库
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
44 0
|
3月前
|
XML 分布式计算 监控
详细指南:在Hadoop中配置Oozie作业
【8月更文挑战第31天】
62 0
|
3月前
|
分布式计算 资源调度 监控
MapReduce程序中的主要配置参数详解
【8月更文挑战第31天】
73 0

相关实验场景

更多