开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks配置数据质量监控操作步骤是什么?

DataWorks配置数据质量监控操作步骤是什么?

展开
收起
真的很搞笑 2023-10-22 21:10:42 56 0
4 条回答
写回答
取消 提交回答
  • 配置数据质量监控https://help.aliyun.com/zh/dataworks/getting-started/configure-rules-to-monitor-data-quality?spm=a2c4g.11186623.0.i218

    1、配置分区表达式
    数据质量通过分区表达式来确定数据质量校验的表分区数据。

    此步骤中,您需要监控目标表ods_raw_log_d表达式$[yyyymmdd-1]所匹配的分区数据是否符合预期,即在ods_raw_log_d表每次监控规则执行时,监控其业务时间对应分区的数据是否符合数据质量校验规则。步骤如下:

    image.png
    在表监控规则配置页面,单击分区表达式后的image.png,进入添加分区页面。

    在添加分区对话框中,选择分区表达式为$[yyyymmdd-1]。

    单击计算,查看计算结果是否符合预期,确认无误后单击确定。

    本案例希望监控每日调度任务产出的表数据是否符合预期,由于当前表每日产出业务时间昨天的数据,所以此处计算结果显示调度时间为今天,计算结果为昨天时,符合预期。

    2、配置监控规则
    表ods_raw_log_d用于接收从OSS同步过来的网站访问记录,为用户画像分析场景源头表,所以为避免后续无效加工及质量问题,我们针对该表配置表行数大于0的强监控规则,来判断同步任务是否往该表该分区写入数据。

    当监控到ods_raw_log_d表对应分区行数为0,将触发告警,ods_raw_log_d节点失败退出,并阻塞ods_raw_log_d节点的下游任务执行。

    image.png
    单击创建规则,进入创建规则页面。

    单击添加监控规则,配置如下参数,并单击批量添加。

    规则名称:自定义该监控规则名称,本案例为表行数是否大于0。

    强弱:根据业务影响程度定义该规则是否阻塞下游任务执行。

    本案例规则定义为强,即当监控到ods_raw_log_d表行数为0时,触发告警,并且阻塞下游任务执行。

    更多配置项介绍请参见配置规则:按表(单表)。

    3、试跑质量规则
    试跑可校验规则配置的合理性,为确保质量规则的配置无误且符合预期,您可在规则创建完成后,试跑该规则。

    image.png
    单击试跑,进入试跑对话框。

    在试跑对话框中,选择调度时间,单击试跑。

    试跑完成后,单击试跑成功,点击查看试跑结果,查看试跑结果。

    4、规则关联调度节点
    数据质量通过关联调度的方式及时感知源端数据的变更与ETL(Extract Transformation Load)中产生的脏数据,即通过关联调度节点触发数据质量校验规则执行。

    本案例中,当ods_raw_log_d节点将OSS数据同步至ods_raw_log_d表后即对该表对应分区数据进行表行数非0校验,若校验不通过,阻断下游任务执行,及时阻塞脏数据蔓延。

    image.png
    在数据质量规则配置页面,单击关联调度,进入关联调度配置页面。

    在关联调度页面输入框中,输入ods_raw_log_d,单击添加,即通过ods_raw_log_d节点执行来触发ods_raw_log_d表的数据质量规则校验。

    5、订阅规则校验结果
    数据质量为您提供监控报警功能,通过订阅表数据质量校验规则,及时接收质量校验异常并处理,保障数据安全、稳定、按时产出。

    2023-10-23 14:27:03
    赞同 展开评论 打赏
  • 以下是在DataWorks中配置数据质量监控的操作步骤:

    1. 首先,登录DataWorks控制台。
    2. 在左侧导航栏中,单击工作空间列表,选择您所在的工作空间地域。
    3. 在相应的工作空间下,进入数据开发页面。
    4. 单击左上角的图标,选择全部产品 > 数据治理 > 数据质量。
    5. 在数据质量页面中,可以进行数据质量监控的配置。

    除此之外,数据质量也支持多种异构数据源的质量校验、通知和管理服务,以数据集(DataSet)为监控对象。目前主要支持MaxCompute数据表的监控。当离线MaxCompute数据发生变化时,数据质量会自动对数据进行校验,并可阻止生产链路以避免问题数据的扩散。同时,数据质量还提供历史校验结果的管理,方便用户对数据质量进行分析和定级。

    2023-10-23 11:06:02
    赞同 展开评论 打赏
  • 进入数据开发页面。登录DataWorks控制台。在左侧导航栏,单击工作空间列表。选择工作空间所在地域后,单击相应工作空间后的进入数据开发。进入ods_log_info_d表的监控规则页面。单击左上角的image.png
    图标,选择全部产品 > 数据质量。在左侧导航栏,单击监控规则,从数据源下拉列表中选择EMR。单击ods_log_info_d表后的配置监控规则。添加分区表达式。在已添加的分区表达式模块,单击+。添加分区对话框中,选择分区表达式为dt=$[yyyymmdd-1],并选择相应的数据质量插件。单击计算,即可查看调度结果。确认无误后,单击确认。创建规则。选中分区后,单击右上角的创建规则。在模板规则对话框中,单击添加监控规则。配置监控规则。image.png
    参数 描述
    规则名称 新建规则的名称。
    强弱 设置规则的强度为强。
    动态阈值 根据自身需求,选择是否开启动态阈值。
    规则来源 包括内置模板和规则模板库。
    规则字段 请选择表级规则(table)。
    规则模板 请选择表行数,固定值。
    比较方式 请选择大于。
    期望值 设置为0,即比较方式为期望值大于0。配置完成后,单击批量添加。进行试跑。单击页面右上角的试跑。在试跑对话框中,选择调度时间和资源组,单击试跑。试跑完成后,单击试跑成功!点击查看试跑结果,即可跳转至试跑结果页面。进行关联调度。在ods_log_info_d表的监控规则页面,单击关联调度。在关联调度对话框中,输入节点ID或节点名称,单击添加。添加完成后,即可完成与调度节点任务的绑定,则任务实例运行完成都会触发数据质量的检查。配置任务订阅。在ods_log_info_d表的监控规则页面,单击订阅管理。在订阅管理对话框中,设置订阅方式和接受对象。目前支持的订阅方式包括邮件通知、邮件和短信通知、钉钉群机器人和钉钉群机器人@ALL。设置完成后,单击保存,您可以进入我的订阅页面进行查看和修改。
    https://help.aliyun.com/document_detail/146697.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-10-23 06:02:15
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在DataWorks中,配置数据质量监控操作步骤如下:

    1. 登录DataWorks控制台,进入项目管理页面。
    2. 在项目管理页面中,选择您想要配置数据质量监控的项目。
    3. 在项目页面中,点击“数据质量”按钮,进入数据质量页面。
    4. 在数据质量页面中,点击“新建任务”按钮,进入新建任务页面。
    5. 在新建任务页面中,选择“数据质量监控”任务,设置任务的名称和描述。
    6. 在设置完任务的基本信息后,点击“下一步”按钮,进入数据源配置页面。
    7. 在数据源配置页面中,选择您想要监控的数据源。例如,您可以选择MaxCompute、Hologres等数据源。
    8. 在选择完数据源后,设置数据源的连接参数,例如数据库名、用户名、密码等。
    9. 在设置完数据源的连接参数后,点击“下一步”按钮,进入监控规则配置页面。
    10. 在监控规则配置页面中,设置监控规则的名称、描述和内容。例如,您可以设置数据行数的波动范围、数据类型的一致性等。
    11. 在设置完监控规则后,点击“下一步”按钮,进入任务执行时间配置页面。
    12. 在任务执行时间配置页面中,设置任务的执行时间、执行频率等参数。
    13. 在设置完任务执行时间后,点击“完成”按钮,完成数据质量监控任务的配置。
    2023-10-22 22:07:41
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    低代码开发师(初级)实战教程 立即下载
    冬季实战营第三期:MySQL数据库进阶实战 立即下载
    阿里巴巴DevOps 最佳实践手册 立即下载