开发者社区大数据与机器学习大数据开发治理DataWorks 正文

DataWorks任务调度的优先级，如何解决？

DataWorks任务调度的优先级？

展开

收起

真的很搞笑 2024-04-09 10:16:24 95 版权

阿里云 AI 助理回答

DataWorks任务调度的优先级机制

在阿里云大数据开发治理平台DataWorks中，任务调度的优先级是通过基线管理和任务优先级配置来实现的。以下是详细的说明：

1. 任务优先级的定义

任务优先级决定了任务在资源紧张的情况下能否优先获得调度资源。优先级的取值范围为1、3、5、7、8，数值越大，优先级越高。

默认优先级：如果未设置优先级，默认优先级为1。
优先级映射：
- 对于MaxCompute节点任务，优先级会映射到MaxCompute计算任务的优先级，公式为：
```
MaxCompute作业优先级 = 9 - DataWorks基线优先级
```
例如，DataWorks基线优先级为5时，对应的MaxCompute作业优先级为4。 - 对于EMR节点任务，可以通过设置基线优先级与YARN队列优先级的映射关系，调整任务的执行资源分配。

2. 如何设置任务优先级

任务优先级的设置需要通过基线管理功能完成，具体步骤如下：

进入基线管理页面：
- 在DataWorks运维中心页面，单击左侧导航栏中的智能监控 > 智能基线。
创建或编辑基线：
- 单击新建基线，或选择已有基线进行编辑。
配置基线属性：
- 基线名称：自定义基线名称。
- 所属工作空间：选择当前需保障的任务所属的工作空间。
- 责任人：指定基线负责人。
- 基线类型：选择天监测或小时监测。
- 保障任务：选择需要添加到基线上的任务节点或业务流程。
  - 建议：仅添加业务流程最下游的节点任务，以避免冗余监控。
- 优先级：设置基线的优先级（取值范围为1、3、5、7、8）。
- 预计完成时间：根据历史数据自动计算任务的预计完成时间。
- 承诺时间：设置任务的最晚完成时间。
- 预警余量：预留处理异常的时间。
保存配置：
- 单击完成，保存基线配置。

3. 查看任务优先级

任务优先级可以在以下位置查看：

运维中心 > 实例属性：
- 在实例详情中，可以查看任务的优先级信息。

MaxCompute任务历史查询：

使用SQL查询information_schema.tasks_history表，定位优先级非9的作业。示例查询如下：

SELECT inst_id, owner_name, task_name, task_type, settings
FROM information_schema.tasks_history
WHERE ds = '${bizdate}'
  AND get_json_object(REPLACE(settings, '.', '_'), '$.odps_instance_priority') = '${priority}'
LIMIT 100;

bizdate：日期分区，例如20200517。
priority：优先级数值，例如2。

4. 优先级的影响

高优先级任务的优势：
- 在调度资源紧张的情况下，高优先级任务将优先获得调度资源。
- 高优先级基线上的任务会受到资源倾斜，确保按时产出。
注意事项：
- 调度资源组主要用于任务调度，不适合用于大数据计算。推荐使用MaxCompute进行大数据计算。
- 如果任务设置了基线但基线不合理，应及时删除基线以恢复默认优先级。

5. 冻结任务对优先级的影响

冻结周期任务：
- 冻结操作会阻塞下游任务运行，生成的周期实例处于冻结状态。
- 冻结后，任务不会参与调度，也不会占用调度资源。
冻结实例：
- 冻结操作仅影响当前实例，不影响其他实例的运行。

6. 优先级的补充说明

资源分类：
- 调度资源分为一级调度资源组和二级计算资源组。
- 数据集成任务需要一级调度资源组下发任务到二级数据集成资源组。
- 计算引擎任务（如ODPS SQL）需要一级调度资源组下发任务到二级计算资源组。
任务状态与优先级：
- 任务实例的状态包括NOT_RUN（未运行）、WAIT_RESOURCE（等待资源）、RUNNING（运行中）等。
- 优先级高的任务在WAIT_RESOURCE状态下更容易获得资源。