阿里云E-MapReduce 创建执行计划

简介:

执行计划是一组作业的集合,他们通过调度上的配置,可以被一次性或者周期性的执行。他可以在一个现有的 E-MapReduce 集群上运行,也可以动态的按需创建出一个临时集群来运行作业。它最大的优势就是跑多少就用多少资源,最大化的节省资源的浪费。

创建执行计划的步骤如下:

1.登录阿里云 E-MapReduce 控制台执行计划页面

2.选择地域(Region)。

3.单击右上角的创建执行计划,进入创建执行计划页面。

4.在选择集群方式页面上,有两个选项,分别是“按需创建”和“已有集群”。

按需创建:创建一个全新的集群,用来运行作业。

一次性调度的执行计划,会在开始执行的时候创建对应配置的集群,并在运行完成以后释放该集群。具体创建参数说明参考创建集群。

周期调度的执行计划,会在每一个调度周期开始时,按照用户的设置创建出一个新的集群运行作业,并在运行结束后,释放集群。

已有集群:使用一个已有的集群,并且该集群要符合以下要求。如果选择“已有集群”,则进入选择集群页面。用户可选择要将该执行计划关联到的集群。

目前只有“运行中”和“空闲”这 2 个状态的集群可以被提交执行计划。
5.单击下一步,进入配置作业页面。左边表中会列出用户所有的作业,可以单击选中需要执行的作业,然后单击中央的右向按钮将作业加入已选作业队列。已选作业队列中的作业会被按排列顺序提交到集群中执行。同一个作业可以被添加多次,就会多次执行。如果您还没有创建任何作业,请您先参见创建作业的操作说明创建作业。

6.单击下一步,进入配置调度方式页面。配置项说明如下:

执行计划名称:长度限制为 1-64 个字符,只允许包含中文、字母、数字、’-‘、’_’。

调度策略

手动执行:创建完执行计划以后,并不会自动执行。需要用户手动执行。一旦已经在运行中了,不可以被再次执行。

周期调度:创建完执行计划以后,周期调度功能会立刻启动。并在用户设置的调度时间点上开始执行。可以在列表页面关闭周期调度。当调度执行开始的时候,上一周期的执行还未结束,本次调度就会被忽略。

调度周期设置:可以有天或小时两种调度的周期。天默认是一天,且无法更改。若选择小时,则可设置具体间隔时间,范围从 1-23。

首次执行时间:调度有效的开始时间。从这个时间开始,按照调度周期进行周期调度。第一次调度按照实际的时间满足要求的最近一个时间点开始调度。

单击确认提交,完成执行计划的创建。

其他

周期调度示例


screenshot

这个设置表示,从 2015 年 10 月 31 日 10 点 0 分开始第一次调度,以后每隔一天调度一次。第二次调度是 2015 年 11 月 1 日 10 点 0 分。

作业的执行顺序

执行计划中的作业,按照用户选择的作业在作业列表中的顺序,从第一个开始一直执行到最后一个。

多个执行计划的执行顺序

每一个执行计划都可以看做是一个整体。当多个执行计划被提交到同一个集群上后,每一个执行计划都会按照自身内部的作业顺序提交作业,和单个执行计划的顺序是一致。而多个执行计划之间的作业是并行的。

实践示例 —— 前期作业调试

在作业的调试阶段,如果经常用按需自动创建集群的方式会比较慢,每次都需要启动集群会花费不少的时间。推荐的方式是:先手动创建一个集群,然后在执行计划中,选择关联该集群来运行作业,并设置调度方式为立即执行。调试的时候,每次都通过单击执行计划列表页上的“立即运行”来多次运行,查看结果。一旦作业调试完成,修改执行计划。将关联现有集群的方式,修改为按需创建新集群。并将调度方式修改为周期调度(视实际情况而定)。后续就可以按需自动跑任务了。

相关实践学习
数据湖构建DLF快速入门
本教程通过使⽤数据湖构建DLF产品对于淘宝用户行为样例数据的分析,介绍数据湖构建DLF产品的数据发现和数据探索功能。
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
2天前
|
SQL 分布式计算 关系型数据库
阿里云E-MapReduce Trino专属集群外连引擎及权限控制踩坑实践
本文以云厂商售后技术支持的角度,从客户的需求出发,对于阿里云EMR-Trino集群的选型,外连多引擎的场景、Ldap以及Kerberos鉴权等问题进行了简要的实践和记录,模拟客户已有的业务场景,满足客户需求的同时对过程中的问题点进行解决、记录和分析,包括但不限于Mysql、ODPS、Hive connector的配置,Hive、Delta及Hudi等不同表格式读取的兼容,aws s3、阿里云 oss协议访问异常的解决等。
|
6月前
|
存储 SQL 缓存
【云栖2023】李钰:阿里云 E-MapReduce 全面开启 Serverless 时代
本文根据 2023 云栖大会,阿里云资深技术专家、阿里云开源大数据平台EMR负责人李钰演讲实录整理而成。
331 0
|
6月前
|
SQL
在阿里云的E-MapReduce中,对数组类型进行聚合操作需要使用特定的函数
在阿里云的E-MapReduce中,对数组类型进行聚合操作需要使用特定的函数
32 2
|
8月前
|
数据库 数据安全/隐私保护
阿里云E-MapReduce集群-开源Ldap密码不安全问题解决方案
社区开源Ldap密码不安全问题解决方案
|
8月前
|
分布式计算 Java API
阿里云E-MapReduce集群不同计算引擎sleep task使用笔记
需求:日常在E-MapReduce集群中进行相关测试,验证一些切换或变更是否会影响业务的运行导致任务failed。所以需要在测试集群中运行指定资源数(vcore及memory)或者指定运行时间的任务。 目前用到MapReduce和spark任务两种,其余的持续更新补充中……
|
8月前
|
存储 弹性计算 资源调度
阿里云E-MapReduce节点优雅下线-基于Yarn Node Labels特性
背景:阿里云E-MapReduce集群(简称EMR集群)部分节点需要下线迁移,但集群资源常年跑满,诉求是节点下线迁移过程中不影响任一任务执行。 本次方案基于Yarn Node Labels的特性进行资源隔离后下线。 下期对官网Graceful Decommission of YARN Nodes的方案进行验证,参考:https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/GracefulDecommission.html。
|
12月前
|
大数据
《阿里云产品手册2022-2023 版》——开源大数据平台 E-MapReduce
《阿里云产品手册2022-2023 版》——开源大数据平台 E-MapReduce
|
12月前
|
SQL Cloud Native 关系型数据库
《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB PostgreSQL版功能演示(上)——六、查看分析执行计划
《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB PostgreSQL版功能演示(上)——六、查看分析执行计划
|
存储 运维 资源调度
阿里云E-MapReduce产品新动态及开源大数据前沿技术 2023-4月刊
开源大数据EMR产品技术月刊,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解开源大数据最新动态。
584 1
阿里云E-MapReduce产品新动态及开源大数据前沿技术 2023-4月刊
|
SQL 弹性计算 分布式计算
阿里云开源大数据平台E-MapReduce 产品新动态及开源大数据前沿技术分享 2023-2月刊
开源大数据平台 EMR 产品技术月刊,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解开源大数据最新动态。
9975 5
阿里云开源大数据平台E-MapReduce 产品新动态及开源大数据前沿技术分享 2023-2月刊

热门文章

最新文章