当前仅支持为MaxCompute、E-MapReduce(简称EMR)、Hologres、AnalyticDB PostgreSQL、AnalyticDB MySQL数据源配置质量监控规则。并且,规则配置后,产出表数据的调度节点需要使用网络已连通的独享调度资源组进行调度,才可正常触发数据质量规则校验。独享调度资源组的相关配置,详情请参见新增和使用独享调度资源组。
动态阈值类规则需要有21天采样记录,若少于21天,动态阈值类规则会校验异常。若无21天采样记录,您可在配置了动态阈值类规则且规则关联调度任务后,通过补数据功能补齐21天采样记录。
操作步骤
配置数据质量规则是一个确保数据准确性和完整性的重要步骤。以下是基于您提供的流程,详细描述如何按表配置质量规则的步骤:
参考
https://help.aliyun.com/zh/dataworks/user-guide/configure-monitoring-rules-by-table#c9ea80ff524gc
在“规则管理”页签,针对已创建的质量监控,点击“创建规则”。
选择或使用系统模板规则,如“表行数大于0”,并设定规则的重要程度(如“强规则”或“弱规则”)。
强规则:检测到问题时会触发告警并阻塞下游任务,防止问题数据传播。
弱规则:仅触发告警,不影响下游流程。
要在DataWorks中配置数据质量校验规则的告警,可以按照以下步骤操作:
在规则列表页面,点击订阅管理。
配置报警消息的接收方式,比如选择邮件通知。
图片示例:订阅报警消息
确保关联了产出表数据的调度节点,以便任务执行时触发质量校验。
示例:关联产出result_table表数据的result_table调度节点。
图片示例:关联调度节点
当任务执行时,会自动进行数据质量校验,
在DataWorks中配置质量校验规则告警,可以按照以下步骤进行:
登录DataWorks控制台。
在左侧导航栏中,选择“数据开发”。
在数据开发页面,找到需要配置质量校验规则的项目,点击进入项目详情页面。
在项目详情页面,点击左侧导航栏中的“质量校验”。
在质量校验页面,点击右上角的“新建质量校验”按钮。
在新建质量校验对话框中,填写相关信息,包括校验名称、描述、SQL查询语句等。
在“告警设置”部分,勾选“启用告警”,并设置告警条件,如失败次数、失败率等。
点击“确定”按钮,完成质量校验规则的配置。
配置完成后,可以在质量校验列表中查看已创建的质量校验规则,以及对应的告警状态。
注意:具体的操作界面和选项可能因DataWorks版本不同而有所差异,请根据实际情况进行调整。
在DataWorks中配置质量校验规则告警是一个确保数据质量的重要步骤。以下是详细的配置步骤:
一、准备阶段
确定校验需求:
明确需要对哪些数据表进行校验。
确定校验的具体规则,如空值检查、唯一性检查、值域检查等。
创建数据源和数据表:
确保待校验的数据表已经存在于数据源中,并且数据源已正确配置在DataWorks中。
二、配置数据质量规则
进入DataWorks数据质量模块:
登录DataWorks控制台,选择对应的工作空间。
在左侧导航栏中找到“数据服务”或“数据质量”模块,进入数据质量配置页面。
创建数据质量规则:
在数据质量配置页面,选择“创建规则”或类似的选项。
定义规则的名称、描述等基本信息。
选择或定义校验规则的具体内容,如选择系统模板规则或自定义SQL规则。
如果是自定义SQL规则,需要编写相应的SQL语句来定义校验逻辑。
关联数据表与规则:
将创建好的规则与需要进行校验的数据表进行关联。
在规则配置中,指定需要校验的数据表及其分区(如果有的话)。
三、配置告警通知
设置告警条件:
在规则配置中,设置触发告警的条件,如数据校验失败、异常值超过阈值等。
配置告警通知方式:
选择告警消息的通报方式,如邮件、钉钉机器人等。
配置相应的通知接收人、通知模板等。
四、测试与验证
试跑规则:
在规则配置完成后,进行试跑以验证规则的正确性和告警通知的有效性。
根据试跑结果调整规则或通知配置,直到满足需求。
发布规则:
试跑无误后,将规则发布到生产环境。
五、监控与优化
监控任务执行情况:
通过DataWorks的监控功能查看任务的执行情况和数据质量校验结果。
定期检查告警记录和异常数据,确保问题得到及时处理。
优化规则与配置:
根据实际运行情况优化数据质量规则的配置,如调整校验逻辑、告警阈值等。
不断完善和优化数据质量监控体系,提升数据质量保障能力。
请注意,具体操作步骤可能会随着DataWorks产品的更新而有所变化。因此,在实际操作中,建议参考最新的DataWorks官方文档或UI指引进行配置。
在DataWorks中配置质量校验规则告警,主要是通过设置数据质量检测规则,并结合告警机制来实现的。以下是详细的步骤说明:
登录DataWorks控制台:
进入数据开发页面:
创建质量检测规则:
创建告警规则:
设置告警条件:
配置告警接收人:
选择告警渠道:
保存配置:
启用质量检测规则:
监控质量检测结果:
定期审查:
调整规则:
假设你想为一个名为 sales_data
的表配置数据质量检测规则,并在数据缺失率达到一定阈值时发送告警。
创建质量检测规则:
SalesDataCompletenessRule
sales_data
配置告警:
如果你需要进一步的帮助或有关于特定配置的问题,请随时告诉我。
在DataWorks中,当你执行SQL语句时,如果出现“正在等待在云端的gateway资源”,这通常意味着当前的工作节点正忙于处理其他任务,或者系统正在进行资源调度。以下是一些可能的原因和解决方法:
创建质量规则: 在DataWorks的数据治理模块中,你可以创建质量校验规则。选择要校验的数据表,设置相应的校验规则,如完整性、唯一性、非空性等。
配置告警: 在质量规则设置中,你可以配置告警策略,包括触发条件(如规则不通过的阈值)和告警方式(如邮件、短信、钉钉等)。
关联任务: 将质量规则与你的数据开发任务(如SQL任务)关联起来,这样每次任务执行后,系统会自动进行质量校验,并根据你的告警配置发送通知。
登录DataWorks控制台,进入数据质量页面。您可以通过点击控制台左侧导航栏的相应选项,选择您的工作空间并进入数据质量监控页面 。配置分区表达式,这有助于确定需要进行质量校验的表分区。您可以在表规则配置页面中添加分区表达式,例如使用dt=$[yyyymmdd]来获取定时时间的分区 。创建质量规则,您可以使用内置模板快速创建规则,或者根据需要自定义规则。规则可以设置为强规则或弱规则,以控制当数据不符合预期时对生产链路的影响 。试跑质量规则,以确保它们按预期工作。您可以在规则列表页面进行试跑,并根据结果调整规则设置 。关联调度节点,这样当相关调度任务运行时,就会触发数据质量校验规则。建议将规则关联到产出表数据的调度节点,设置告警订阅,以便在数据质量校验结果出现异常时能够及时收到通知。您可以设置接收人和通知方式,如邮件、短信或钉钉群机器人 。
最后你配置一下告警信息
创建质量监控:
登录DataWorks控制台,进入相应项目空间。
在“质量监控”页签,点击“新建质量监控”,按照向导配置监控基本信息,包括监控对象(默认为当前表)、数据范围(非分区表默认全表,分区表需配置分区表达式)、运行设置(触发方式:生产调度触发或手动触发)等。
定义质量问题处理策略:
在配置质量监控时,设定 问题处置策略 ,可选择:
阻塞:检测到数据质量问题后,相关调度节点将被设置为失败,阻止问题数据流向下游。
告警:发现问题时,通过预设的告警订阅渠道发送告警信息。
默认告警策略可能包括多种异常级别,如“强规则·红色异常”、“弱规则·橙色异常”等,具体可按需调整。
选择质量规则:
在质量监控配置中,通过“选择质量规则”步骤,关联适合的校验规则到监控中。这可以通过选择系统内置的模板规则或自定义SQL规则来实现。
系统模板规则提供了多种预设的校验类型,如表行数检查、数值字段的平均值、汇总值等校验,每种规则都允许自定义规则名称、范围、比较方式等。
配置数据质量规则细节:
对于选定的规则模板,进一步细化配置,如设置规则范围(表级别或字段级别)、比较方式(固定值比较、波动范围比较或智能动态阈值)等,确保规则符合数据质量监控的具体需求。
最后你 测试运行一下就可以啦
您可以在“监控规则”中通过匹配表分区表达式,给表添加“模板规则”或“自定义规则”校验数据产出是否符合预期,通过“规则强弱”,“异常程度”决定规则是否阻塞下游任务执行,避免下游数据受到污染。 规则创建完成后,您可以通过“试跑”来测试表规则是否符合预期。 规则创建完成后,您需要“关联调度”,为规则关联调度节点后,调度节点执行便会触发数据质量监控规则校验。 如果您需要第一时间知道数据质量校验异常情况,您可以点击“订阅管理”,选择手机,邮箱,或者钉钉告警,第一时间接受报警信息,之后的规则触发情况,您可以在“我的订阅”中看到。
参考文档https://help.aliyun.com/zh/dataworks/user-guide/built-in-monitoring-rule-templates
规则配置流程
您可基于表配置单个表的数据质量监控规则,也可基于模板,批量配置多个表的数据质量监控规则,具体如下。
基于表配置数据质量监控规则(单个配置监控规则)
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。