开发者社区 问答 正文

E-MapReduce如何创建作业?


要运行一个计算任务,首先需要定义一个作业,其步骤如下:


  1. 登录阿里云 E-MapReduce 控制台作业页面

  2. 选择地域(Region),则作业将会创建在对应的地域内。

  3. 单击该页右上角的[backcolor=transparent]创建作业,进入创建作业页面,如下图所示:

  4. 填写作业名称。

  5. 选择作业类型。

  6. 填写作业的应用参数。应用参数需要完整填写该作业运行的 jar 包、作业的数据输入输出地址以及一些命令行参数,也就是将用户在命令行的所有参数填写在这里。如果有使用到 OSS 的路径,可以单击下方的“选择 OSS 路径”选择 OSS 资源路径。关于各作业类型的参数配置,请参见用户指南中的作业

  7. 实际执行命令。这里会显示作业在 ECS 上实际被执行的命令。用户如果把这个命令直接复制下来,就能够在 E-MapReduce 集群的命令行环境中直接运行。

  8. 选择执行失败后策略。暂停当前执行计划会在这个作业失败后,暂停当前整个执行计划,等待用户处理。而继续执行下一个作业在这个作业失败以后,会忽略这个错误继续执行后一个作业。

  9. 单击[backcolor=transparent]确定完成创建。


作业示例


这是一个 Spark 类型的作业,应用参数中设置了相关的参数,输入输出路径等。
注意:本作业仅仅示例,不能实际运行。


oss 与 ossref


[backcolor=transparent]oss:// 的前缀代表数据路径指向一个 OSS 路径,当要读写该数据的时候,这个指明了操作的路径,与 hdfs:// 类似。
[backcolor=transparent]ossref:// 同样是指向一个 OSS 的路径,不同的是它会将对应的代码资源下载到本地,然后将命令行中的路径替换为本地路径。它是用于更方便地运行一些本地代码,而不需要登录到机器上去上传代码和依赖的资源包。
上面的例子中, ossref://xxxxxx/xxx.jar 这个参数代表作业资源的jar,这个jar存放在OSS上,在运行的时候,E-MapReduce会自动下载到集群中运行。而跟在jar后面的2个 oss://xxxx 以及另外2个值则是作为参数出现,他们会被作为参数传递给jar中的主类来处理。
注意: ossref 不可以用来下载过大的数据资源,否则会导致集群作业的失败。

展开
收起
nicenelly 2017-10-27 14:41:47 2366 分享 版权
阿里云 AI 助理回答

您已经很好地概述了在阿里云E-MapReduce(EMR)平台上创建和配置计算作业的步骤,以及如何处理OSS(对象存储服务)路径。这里我再补充一些细节和建议,帮助您更有效地利用阿里云EMR进行大数据处理任务。

作业创建与配置要点回顾:

  1. 地域选择:确保作业创建在与您的数据源、应用需求最接近的地域,以减少网络延迟,提高处理效率。
  2. 作业类型:根据您的计算需求选择合适的作业类型,如Spark、Hive、Pig等。每种类型适用于不同的场景和数据处理需求。
  3. 应用参数
    • jar包路径:使用ossref://前缀可以简化资源管理,自动下载依赖到集群节点,适合小至中型的jar文件或资源。
    • 输入输出地址:通过oss://指定数据源和目标位置,充分利用OSS的高可用性和扩展性。
    • 命令行参数:根据作业逻辑需要,详细填写所有必要的参数,确保作业能够正确执行。
  4. 实际执行命令预览:此功能有助于理解作业背后的执行逻辑,便于调试和手动复现问题。
  5. 失败策略:灵活设置执行失败后的应对措施,根据业务连续性要求选择是否暂停计划或继续执行后续作业。

注意事项与最佳实践:

  • OSS资源管理:合理组织OSS上的数据结构,保持路径清晰,有利于管理和维护作业依赖。
  • 性能优化
    • 对于大规模数据处理,考虑数据的分区策略,合理分配计算资源(如调整Executor数量、内存大小)。
    • 利用OSS的多版本控制特性备份重要数据,避免误操作导致数据丢失。
  • 成本控制
    • 监控作业运行情况,适时调整实例类型或数量,避免不必要的费用支出。
    • 利用阿里云的成本管理工具,设定预算预警,监控EMR集群及OSS的使用成本。
  • 安全性:确保遵循最小权限原则配置访问策略,限制对OSS桶和作业的访问权限,保护数据安全。

高级功能探索:

  • 集成DataWorks:结合阿里云DataWorks进行数据开发、调度和运维,实现更复杂的ETL流程自动化。
  • 日志与监控:利用EMR的日志系统和阿里云监控服务,及时发现并解决作业执行中的问题,提升故障排查效率。

通过上述指南和建议,您可以更加高效、安全地在阿里云EMR上设计和执行大数据计算任务,充分利用云平台的弹性与便利性。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答