阿里云创建E-MapReduce 3 创建作业

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
对象存储 OSS,恶意文件检测 1000次 1年
简介:

要运行一个计算任务,首先需要定义一个作业,其步骤如下:

1.登录阿里云 E-MapReduce 控制台作业页面

2.选择地域(Region),则作业将会创建在对应的地域内。

3.单击该页右上角的创建作业,进入创建作业页面,如下图所示:


screenshot

4.填写作业名称。

5.选择作业类型。

6.填写作业的应用参数。应用参数需要完整填写该作业运行的 jar 包、作业的数据输入输出地址以及一些命令行参数,也就是将用户在命令行的所有参数填写在这里。如果有使用到 OSS 的路径,可以单击下方的“选择 OSS 路径”选择 OSS 资源路径。关于各作业类型的参数配置,请参见用户指南中的作业。

7.实际执行命令。这里会显示作业在 ECS 上实际被执行的命令。用户如果把这个命令直接复制下来,就能够在 E-MapReduce 集群的命令行环境中直接运行。

8.选择执行失败后策略。暂停当前执行计划会在这个作业失败后,暂停当前整个执行计划,等待用户处理。而继续执行下一个作业在这个作业失败以后,会忽略这个错误继续执行后一个作业。

9.单击确定完成创建。

作业示例

这是一个 Spark 类型的作业,应用参数中设置了相关的参数,输入输出路径等。

注意:本作业仅仅示例,不能实际运行。


screenshot

oss 与 ossref

oss:// 的前缀代表数据路径指向一个 OSS 路径,当要读写该数据的时候,这个指明了操作的路径,与 hdfs:// 类似。

ossref:// 同样是指向一个 OSS 的路径,不同的是它会将对应的代码资源下载到本地,然后将命令行中的路径替换为本地路径。它是用于更方便地运行一些本地代码,而不需要登录到机器上去上传代码和依赖的资源包。

上面的例子中, ossref://xxxxxx/xxx.jar 这个参数代表作业资源的jar,这个jar存放在OSS上,在运行的时候,E-MapReduce会自动下载到集群中运行。而跟在jar后面的2个 oss://xxxx 以及另外2个值则是作为参数出现,他们会被作为参数传递给jar中的主类来处理。

注意: ossref 不可以用来下载过大的数据资源,否则会导致集群作业的失败。

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
7月前
|
存储 分布式计算 监控
Hadoop【基础知识 01+02】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
326 2
|
6月前
|
分布式计算 Java Hadoop
实现多文件合并和去重的MapReduce作业
实现多文件合并和去重的MapReduce作业
172 0
|
6月前
|
分布式计算 大数据
mapreduce 实现带有ex前缀的词频统计wordcount 大作业
mapreduce 实现带有ex前缀的词频统计wordcount 大作业
|
7月前
|
数据采集 分布式计算 DataWorks
DataWorks产品使用合集之在DataWorks中,在MapReduce作业中指定两个表的所有分区如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
88 0
|
7月前
|
分布式计算 监控 Hadoop
Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
311 0
|
SQL
在阿里云的E-MapReduce中,对数组类型进行聚合操作需要使用特定的函数
在阿里云的E-MapReduce中,对数组类型进行聚合操作需要使用特定的函数
53 2
|
SQL 弹性计算 分布式计算
阿里云开源大数据平台E-MapReduce 产品新动态及开源大数据前沿技术分享 2023-2月刊
开源大数据平台 EMR 产品技术月刊,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解开源大数据最新动态。
10217 8
阿里云开源大数据平台E-MapReduce 产品新动态及开源大数据前沿技术分享 2023-2月刊
|
大数据
《阿里云产品手册2022-2023 版》——开源大数据平台 E-MapReduce
《阿里云产品手册2022-2023 版》——开源大数据平台 E-MapReduce
101 0
|
资源调度 分布式计算 Java
MapReduce作业在YARN的内存分配设置
MapReduce作业在YARN的内存分配设置
385 0
MapReduce作业在YARN的内存分配设置
阿里云ACE×E-MapReduce 数据湖 Meetup 上海站来啦!
8月7日,阿里云E-MapReduce数据湖Meetup上海站来啦!本场Meetup由阿里云E-MapReduce与阿里ACE同城会联合举办。此次Meetup,社区邀请了来自阿里巴巴、intel、cloudera的7位资深技术专家,分享了超多关于云原生数据湖的内容,全方位解析数据湖治理等难题,以及正式启动E-MapReduce极客挑战赛。
316 0
阿里云ACE×E-MapReduce 数据湖 Meetup 上海站来啦!