开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks数据质量作业支持两张表的数据进行质量校验么,例如校验A、B表行数是否相同?

DataWorks数据质量作业支持两张表的数据进行质量校验么,例如校验A、B表行数是否相同?

展开
收起
cuicuicuic 2023-07-01 17:41:34 50 0
2 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    是的,DataWorks数据质量作业支持对多张表的数据进行质量校验,例如校验A、B表的行数是否相同、校验A表中的某个字段是否存在于B表中等。

    具体操作步骤如下:

    进入DataWorks的数据质量作业页面,创建一个新的数据质量作业。

    在作业中添加数据源和数据表,即需要进行数据质量校验的表格。

    在作业中添加数据质量指标,例如行数、字段是否为空、字段值是否符合规则等,可以设置多个指标。

    在作业中添加数据质量规则,即需要进行数据质量校验的规则,例如校验A、B表行数是否相同、校验A表中的某个字段是否存在于B表中等。

    运行数据质量作业,将会对指定的数据源和数据表进行数据质量校验,生成数据质量报告。

    2023-07-31 22:36:25
    赞同 展开评论 打赏
  • 【数据质量DQC】 数据质量以数据集(DataSet)为监控对象。目前,数据质量支持EMR(E-MapReduce)、Hologres、AnalyticDB for PostgreSQL、MaxCompute数据表和DataHub实时数据流的监控。当离线数据发生变化时,数据质量会对数据进行校验,并阻塞生产链路,以避免问题数据污染扩散。同时,数据质量支持管理历史校验结果,您可以对数据质量进行分析和定级。 【DQC配置】

    您可以在“监控规则”中通过匹配表分区表达式,给表添加“模板规则”或“自定义规则”校验数据产出是否符合预期,通过“规则强弱”,“异常程度”决定规则是否阻塞下游任务执行,避免下游数据受到污染。 规则创建完成后,您可以通过“试跑”来测试表规则是否符合预期。 规则创建完成后,您需要“关联调度”,为规则关联调度节点后,调度节点执行便会触发数据质量监控规则校验。 如果您需要第一时间知道数据质量校验异常情况,您可以点击“订阅管理”,选择手机,邮箱,或者钉钉告警,第一时间接受报警信息,之后的规则触发情况,您可以在“我的订阅”中看到。 如果您需要查看某张表或者某个节点历史数据质量校验情况,您可以选择“任务查询”面板进行查询。不支持哈,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-07-01 17:48:15
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多