DataWorks数据质量规则如何配置?

DataWorks数据质量规则如何配置?

展开
收起
芯在这 2023-04-20 08:11:45 336 分享 版权
3 条回答
写回答
取消 提交回答
  • 值得去的地方都没有捷径

    DataWorks是阿里云的一款大数据开发平台,其中的数据集成模块支持对数据进行质量检查和修复。在DataWorks中配置数据质量规则需要以下步骤:

    创建数据源:在DataWorks中创建数据源,包括RDS、ODPS等各类数据源,以便于后续对数据源中的数据进行质量检查。

    创建数据源表:在数据源中创建待检查的数据表,并在表结构中定义需要检查的字段。

    配置质量规则:在DataWorks中的“数据质量”模块中配置质量规则。首先需要定义数据检查规则,比如数据类型限制、数据范围等等。然后,需要创建规则集合,可以将多个检查规则组合在一起形成一个规则集合。最后,将规则集合绑定到待检查的数据表上即可。

    运行质量检查:在DataWorks中的“数据质量”模块中运行质量检查,数据平台会对待检查的数据源表进行检查,检查结果反馈到DataWorks中的“数据质量”模块中。

    定义质量修复方案:在DataWorks中的“数据质量”模块中,若发现数据源表数据存在问题,可以根据检查结果定义修复方案,比如删除错误数据、更正数据、进行补救等操作。

    6.运行数据质量修复方案:在完成修复方案的定义后,即可运行数据质量修复方案,自动修正数据源表中存在的问题,从而提高数据的准确性和可靠性。

    需要注意的是,在DataWorks中进行数据质量配置及运行之前,需要确保已成功建立数据源和数据表,并充分了解数据的特性和质量要求,才能进行相关的质量规则设计和规则集合创建。

    2023-04-20 19:06:01
    赞同 展开评论
  • DataWorks数据质量规则配置请参阅配置数据质量监控

    2023-04-20 18:50:21
    赞同 展开评论
  • 数据质量以数据集(DataSet)为监控对象。目前,数据质量支持EMR(E-MapReduce)、Hologres、AnalyticDB for PostgreSQL、MaxCompute数据表和DataHub实时数据流的监控。当离线数据发生变化时,数据质量会对数据进行校验,并阻塞生产链路,以避免问题数据污染扩散。同时,数据质量支持管理历史校验结果,您可以对数据质量进行分析和定级。 【DQC配置】

    您可以在“监控规则”中通过匹配表分区表达式,给表添加“模板规则”或“自定义规则”校验数据产出是否符合预期,通过“规则强弱”,“异常程度”决定规则是否阻塞下游任务执行,避免下游数据受到污染。 规则创建完成后,您可以通过“试跑”来测试表规则是否符合预期。 规则创建完成后,您需要“关联调度”,为规则关联调度节点后,调度节点执行便会触发数据质量监控规则校验。 如果您需要第一时间知道数据质量校验异常情况,您可以点击“订阅管理”,选择手机,邮箱,或者钉钉告警,第一时间接受报警信息,之后的规则触发情况,您可以在“我的订阅”中看到。 如果您需要查看某张表或者某个节点历史数据质量校验情况,您可以选择“任务查询”面板进行查询。,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-04-20 11:15:55
    赞同 展开评论

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

收录在圈子:
+ 订阅
还有其他疑问?
咨询AI助理