DataWorks任务调度的优先级,如何解决?

DataWorks任务调度的优先级?

展开
收起
真的很搞笑 2024-04-09 10:16:24 66 分享 版权
阿里云 AI 助理回答

DataWorks任务调度的优先级机制

在阿里云大数据开发治理平台DataWorks中,任务调度的优先级是通过基线管理任务优先级配置来实现的。以下是详细的说明:


1. 任务优先级的定义

任务优先级决定了任务在资源紧张的情况下能否优先获得调度资源。优先级的取值范围为1、3、5、7、8,数值越大,优先级越高。

  • 默认优先级:如果未设置优先级,默认优先级为1
  • 优先级映射
    • 对于MaxCompute节点任务,优先级会映射到MaxCompute计算任务的优先级,公式为:
    MaxCompute作业优先级 = 9 - DataWorks基线优先级
    

    例如,DataWorks基线优先级为5时,对应的MaxCompute作业优先级为4。 - 对于EMR节点任务,可以通过设置基线优先级与YARN队列优先级的映射关系,调整任务的执行资源分配。


2. 如何设置任务优先级

任务优先级的设置需要通过基线管理功能完成,具体步骤如下:

  1. 进入基线管理页面

    • 在DataWorks运维中心页面,单击左侧导航栏中的智能监控 > 智能基线
  2. 创建或编辑基线

    • 单击新建基线,或选择已有基线进行编辑。
  3. 配置基线属性

    • 基线名称:自定义基线名称。
    • 所属工作空间:选择当前需保障的任务所属的工作空间。
    • 责任人:指定基线负责人。
    • 基线类型:选择天监测或小时监测。
    • 保障任务:选择需要添加到基线上的任务节点或业务流程。
      • 建议:仅添加业务流程最下游的节点任务,以避免冗余监控。
    • 优先级:设置基线的优先级(取值范围为1、3、5、7、8)。
    • 预计完成时间:根据历史数据自动计算任务的预计完成时间。
    • 承诺时间:设置任务的最晚完成时间。
    • 预警余量:预留处理异常的时间。
  4. 保存配置

    • 单击完成,保存基线配置。

3. 查看任务优先级

任务优先级可以在以下位置查看:

  • 运维中心 > 实例属性

    • 在实例详情中,可以查看任务的优先级信息。
  • MaxCompute任务历史查询

    • 使用SQL查询information_schema.tasks_history表,定位优先级非9的作业。示例查询如下:
    SELECT inst_id, owner_name, task_name, task_type, settings
    FROM information_schema.tasks_history
    WHERE ds = '${bizdate}'
      AND get_json_object(REPLACE(settings, '.', '_'), '$.odps_instance_priority') = '${priority}'
    LIMIT 100;
    
    • bizdate:日期分区,例如20200517
    • priority:优先级数值,例如2

4. 优先级的影响

  • 高优先级任务的优势

    • 在调度资源紧张的情况下,高优先级任务将优先获得调度资源。
    • 高优先级基线上的任务会受到资源倾斜,确保按时产出。
  • 注意事项

    • 调度资源组主要用于任务调度,不适合用于大数据计算。推荐使用MaxCompute进行大数据计算。
    • 如果任务设置了基线但基线不合理,应及时删除基线以恢复默认优先级。

5. 冻结任务对优先级的影响

  • 冻结周期任务

    • 冻结操作会阻塞下游任务运行,生成的周期实例处于冻结状态。
    • 冻结后,任务不会参与调度,也不会占用调度资源。
  • 冻结实例

    • 冻结操作仅影响当前实例,不影响其他实例的运行。

6. 优先级的补充说明

  • 资源分类

    • 调度资源分为一级调度资源组和二级计算资源组。
    • 数据集成任务需要一级调度资源组下发任务到二级数据集成资源组。
    • 计算引擎任务(如ODPS SQL)需要一级调度资源组下发任务到二级计算资源组。
  • 任务状态与优先级

    • 任务实例的状态包括NOT_RUN(未运行)、WAIT_RESOURCE(等待资源)、RUNNING(运行中)等。
    • 优先级高的任务在WAIT_RESOURCE状态下更容易获得资源。

通过以上机制,您可以灵活配置和管理DataWorks任务的调度优先级,确保重要任务能够按时完成并满足业务需求。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

还有其他疑问?
咨询AI助理