开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

dataworks周期任务如何配置数据质量规则校验结果?

dataworks周期任务如何配置数据质量规则校验结果?

展开
收起
真的很搞笑 2024-03-26 14:42:59 114 0
4 条回答
写回答
取消 提交回答
  • 在DataWorks中,可以按照以下步骤配置周期任务的数据质量规则校验:

    a. 创建数据质量规则

      - 进入DataWorks工作空间,选择“数据服务” -> “数据质量”。
      - 创建新的数据质量规则,定义所需的校验条件(如空值检查、唯一性检查、值域检查等)。
    

    b. 关联数据表与规则

      - 将创建好的规则与需要进行校验的ODPS表进行关联。
    

    c. 配置周期任务

      - 转到“数据开发”模块,创建或编辑一个周期调度的任务(如SQL脚本、数据同步等)。
      - 在任务配置中,添加“数据质量检测”节点,选择已关联规则的ODPS表。
    

    d. 设置校验结果处理

      - 在“数据质量检测”节点配置中,指定校验失败时的处理方式(如记录异常、阻断任务执行等)。
    

    e. 发布并运行任务

      - 发布任务后,按照设定的周期自动运行。校验结果会在“数据质量”模块中展示,同时可以在任务详情页查看具体校验报告。
    
    2024-03-26 16:26:16
    赞同 展开评论 打赏
  • 将军百战死,壮士十年归!

    在阿里云DataWorks中,配置周期任务依赖于数据质量规则校验结果通常涉及以下步骤:

    1. 配置数据质量规则

      • 在DataWorks的数据质量管理模块中创建或配置数据质量规则。针对你要校验的数据表,定义相关的数据质量检查规则,例如空值检查、唯一性检查、格式校验等。
    2. 设置任务依赖

      • 在DataWorks的数据开发模块创建或编辑周期任务(如工作流任务),并在工作流中配置任务间的依赖关系。
    3. 使用条件分支节点

      • 通常,DataWorks不会直接提供任务依赖于数据质量校验结果的功能,但可以通过条件分支节点来实现。在工作流中添加一个条件分支节点,该节点的条件可以是通过一个SQL查询或脚本来检查数据质量规则校验的结果。

      • 例如,可以通过查询DataWorks数据质量模块的结果表,检查指定表在某次数据校验后的状态,如果校验通过,则执行下一步任务,否则执行错误处理流程。

    4. 使用脚本节点

      • 可以在工作流中添加一个脚本节点,编写脚本来调用DataWorks的数据质量API,获取校验结果,并根据结果决定任务流向。
    5. 自定义逻辑

      • 在某些场景下,可能需要自定义工作流逻辑,比如在数据同步任务完成后,设置一个等待时间,等待数据质量校验完成,然后根据校验结果决定是否继续执行后续任务。

    请注意,具体操作方式可能会随着DataWorks产品的更新有所变化,请参考最新的DataWorks官方文档或UI指引进行配置。如果产品功能支持直接依赖数据质量校验结果,那么在任务的调度配置或依赖设置中可能会有相应选项。如果不支持直接依赖,可以通过间接方式进行逻辑控制。

    2024-03-26 15:26:40
    赞同 展开评论 打赏
  • 在DataWorks中配置周期任务以利用数据质量规则校验结果,主要涉及以下几个步骤:

    1. 创建数据源表:首先,在数据源中创建待检查的数据表,并在表结构中定义需要检查的字段。
    2. 配置数据质量规则:接下来,在DataWorks的“数据质量”模块中配置数据质量规则。这包括定义数据检查规则,比如数据类型限制、数据范围等,并创建规则集合。规则集合可以将多个检查规则组合在一起形成一个集合,便于管理和应用。
    3. 绑定规则到数据表:将配置好的规则集合绑定到待检查的数据表上。这样,当周期任务运行时,DataWorks会自动根据这些规则对数据进行校验。
    4. 创建并配置周期任务:进入DataWorks控制台,选择需要配置调度周期的业务流程。点击业务流程页面右上角的“调度配置”按钮,进入调度配置页面。在调度配置页面中,设置调度周期、调度方式、调度时间等参数。调度周期可以设置为天、小时、分钟或秒,以满足特定的业务需求。
    5. 配置任务依赖关系:在DataWorks中,周期任务可以配置依赖关系以确保任务按照正确的顺序执行。这可以通过使用鼠标拖拽在业务流程画布中连接节点,或在调度配置面板中手动添加上游依赖来实现。对于数据质量规则校验结果的依赖,你需要确保周期任务在数据质量规则校验完成后执行。
    6. 运行并监控任务:配置完成后,保存并提交任务。DataWorks将按照设定的调度周期自动执行任务,并在每次执行时应用数据质量规则进行校验。你可以通过DataWorks的监控功能查看任务的执行情况和数据质量校验结果。
    2024-03-26 15:14:55
    赞同 展开评论 打赏
  • 在阿里云DataWorks中配置周期任务以依赖数据质量规则校验结果的过程主要包括以下几个步骤:

    • 第一步:配置数据质量规则
      登录DataWorks控制台。
      在左侧导航栏选择对应的工作空间,点击进入数据开发页面。
      在数据开发页面中找到数据质量管理模块,创建数据质量规则,这通常涉及到定义数据源、选择需要校验的表以及设定具体的校验规则,如空值率、唯一性、一致性等。
    • 第二步:配置数据质量任务
      创建一个数据质量校验任务,设置定时调度规则,让其按照设定的周期执行数据质量检查。
    • 第三步:关联数据质量任务与业务任务
      在业务任务(例如数据同步任务、数据清洗任务等)的调度配置中,设置任务依赖。
      确认业务任务的触发条件,使其依赖于数据质量校验任务的成功完成。

    • 示例步骤:
      在数据开发页面中找到你要配置依赖的数据同步或加工任务。
      进入该任务的调度配置页面。
      在任务依赖配置区域,添加上游依赖任务,选择之前创建的数据质量校验任务。
      设置依赖关系类型为“完成触发”,意味着只有当数据质量校验任务成功执行后,下游的业务任务才会启动。

    • 注意事项:
      根据DataWorks的版本更新情况,具体的界面和操作路径可能会有所变化,请参照DataWorks控制台的实际布局进行操作。
      确保在配置数据质量任务时,设置了合适的失败判断标准和通知方式,以便在数据质量不符合预期时能够及时得知,并阻止下游任务的执行。

    务必确保正确理解并配置数据质量规则以及任务依赖,这样才能在周期任务执行前进行有效的数据质量校验,确保只有符合规则的数据才能进入下一步处理流程。

    2024-03-26 15:14:49
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 热门讨论

    热门文章

    相关电子书

    更多
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载