DataWorks支持自定义规则来过滤数据,这些规则可以基于分区表达式创建,用于监控指定分区的表数据情况。通常,如果模板规则无法满足您对分区表达式中数据质量的监控需求,您可以使用自定义规则。
同时,DataWorks提供了内置的表级别和字段级别的监控模板,这可以帮助您提升规则配置的效率。对于一些特定的数据库类型,如EMR、Hologres、analyticDB for PostgreSQL、CDH,在进行数据质量规则配置前,需要先进行元数据采集。
此外,DataWorks还支持自定义规则强弱,控制规则产生的影响。当数据质量校验不符合预期时,可以决定是否自动拦截问题任务、阻断脏数据向下游蔓延。规则创建后默认为强规则,但您可根据实际情况进行修改。请注意,这些功能只在DataWorks企业版及以上版本中提供。
当使用DataWorks的数据质量自定义规则时,您可以根据自己的需求定义过滤条件。以下是一些示例过滤条件的样例:
字段值为空:
field_name IS NULL
字段值不为空:
field_name IS NOT NULL
字段值等于特定值:
field_name = 'specific_value'
specific_value
替换为实际的特定值。字段值在指定范围内:
field_name BETWEEN min_value AND max_value
min_value
和max_value
替换为实际的最小值和最大值。字段值满足正则表达式:
REGEXP_LIKE(field_name, 'regex_pattern')
regex_pattern
替换为实际的正则表达式。版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。