开发者社区 问答 正文

E-MapReduce如何创建作业?


要运行一个计算任务,首先需要定义一个作业,其步骤如下:


  1. 登录阿里云E-MapReduce 控制台作业页面

  2. 选择地域(Region),则作业将会创建在对应的地域内。

  3. 单击该页右上角的创建作业,进入创建作业页面,如下图所示:

  4. 填写作业名称。

  5. 选择作业类型。

  6. 填写作业的应用参数。应用参数需要完整填写该作业运行的 jar包、作业的数据输入输出地址以及一些命令行参数,也就是将用户在命令行的所有参数填写在这里。如果有使用到 OSS 的路径,可以单击下方的“选择 OSS 路径”选择OSS 资源路径。关于各作业类型的参数配置,请参见用户指南中的作业

  7. 实际执行命令。这里会显示作业在 ECS 上实际被执行的命令。用户如果把这个命令直接复制下来,就能够在 E-MapReduce集群的命令行环境中直接运行。

  8. 选择执行失败后策略。暂停当前执行计划会在这个作业失败后,暂停当前整个执行计划,等待用户处理。而继续执行下一个作业在这个作业失败以后,会忽略这个错误继续执行后一个作业。

  9. 单击确定完成创建。


[font='iconfont'] 作业示例


这是一个 Spark 类型的作业,应用参数中设置了相关的参数,输入输出路径等。
注意:本作业仅仅示例,不能实际运行。


[font='iconfont'] oss 与 ossref


oss:// 的前缀代表数据路径指向一个 OSS 路径,当要读写该数据的时候,这个指明了操作的路径,与 hdfs://类似。
ossref:// 同样是指向一个 OSS的路径,不同的是它会将对应的代码资源下载到本地,然后将命令行中的路径替换为本地路径。它是用于更方便地运行一些本地代码,而不需要登录到机器上去上传代码和依赖的资源包。
上面的例子中, ossref://xxxxxx/xxx.jar这个参数代表作业资源的jar,这个jar存放在OSS上,在运行的时候,E-MapReduce会自动下载到集群中运行。而跟在jar后面的2个 oss://xxxx以及另外2个值则是作为参数出现,他们会被作为参数传递给jar中的主类来处理。
注意: ossref 不可以用来下载过大的数据资源,否则会导致集群作业的失败。

展开
收起
nicenelly 2017-10-30 13:38:40 1600 分享 版权
阿里云 AI 助理回答

从您的描述中,可以看出您已经对阿里云E-MapReduce(EMR)的作业创建流程有了较为清晰的理解。下面我将根据您提供的信息,进一步解释和补充一些关键点,以帮助您更好地利用阿里云EMR服务进行计算任务的部署与管理。

1. 作业创建步骤回顾

  • 登录控制台:首先,通过阿里云官网登录到E-MapReduce控制台,选择对应的服务区域(Region),确保作业部署在正确的地理位置。

  • 创建作业:点击“创建作业”,进入作业配置页面,开始定义作业的各项参数。

  • 填写作业详情

    • 作业名称:给作业一个易于识别的名字,便于管理和追踪。
    • 作业类型:选择作业执行的框架类型,如Spark、Hive、MapReduce等,这决定了作业运行的环境和资源需求。
    • 应用参数:详细配置作业运行所需的jar包路径、数据输入输出地址及命令行参数。支持使用oss://ossref://协议指定OSS上的资源。
  • 实际执行命令预览:系统会根据您的配置自动生成将在ECS上执行的实际命令,便于调试和直接在集群中手动执行。

  • 失败策略:设定作业执行失败后的处理方式,是暂停整个计划等待人工干预,还是继续执行后续作业,以适应不同的业务场景需求。

2. OSS路径说明

  • oss://:用于直接访问OSS存储中的数据,作业执行时直接读写这些远程路径下的数据,适用于大规模数据处理场景,无需将数据下载到本地。

  • ossref://:提供了一种便捷的方式,允许用户指定OSS上的资源(如jar包或依赖文件),EMR会在作业执行前自动下载这些资源到集群节点的本地存储中,并替换命令行中的路径为本地路径。这种方式适合需要频繁用到某些代码或资源包的场景,减少了手动上传文件的操作,但需注意不要引用过大的文件,以免影响集群性能或导致作业失败。

3. 注意事项

  • 资源大小限制:使用ossref://时,确保下载的资源大小适中,避免因资源过大导致的下载时间过长或集群资源紧张问题。
  • 权限设置:确保E-MapReduce服务角色拥有访问指定OSS bucket的权限,否则作业可能因权限不足而无法正常运行。
  • 成本考量:虽然OSS提供了灵活的数据存储解决方案,但在大量数据读写操作时,应考虑数据传输费用和潜在的性能瓶颈。
  • 监控与日志:利用EMR的监控功能,密切关注作业执行状态和性能指标,及时发现并解决问题。

通过遵循上述指南,您可以高效地在阿里云E-MapReduce平台上设计、部署和管理各种大数据处理作业,充分利用云计算的弹性与效率优势。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答