开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks数据质量自定义规则的过滤条件有样例么?

DataWorks数据质量自定义规则的过滤条件有样例么?

展开
收起
真的很搞笑 2023-12-17 12:48:17 63 0
2 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    DataWorks支持自定义规则来过滤数据,这些规则可以基于分区表达式创建,用于监控指定分区的表数据情况。通常,如果模板规则无法满足您对分区表达式中数据质量的监控需求,您可以使用自定义规则。

    同时,DataWorks提供了内置的表级别和字段级别的监控模板,这可以帮助您提升规则配置的效率。对于一些特定的数据库类型,如EMR、Hologres、analyticDB for PostgreSQL、CDH,在进行数据质量规则配置前,需要先进行元数据采集。

    此外,DataWorks还支持自定义规则强弱,控制规则产生的影响。当数据质量校验不符合预期时,可以决定是否自动拦截问题任务、阻断脏数据向下游蔓延。规则创建后默认为强规则,但您可根据实际情况进行修改。请注意,这些功能只在DataWorks企业版及以上版本中提供。

    2023-12-17 14:55:16
    赞同 1 展开评论 打赏
  • 当使用DataWorks的数据质量自定义规则时,您可以根据自己的需求定义过滤条件。以下是一些示例过滤条件的样例:

    1. 字段值为空:

      • 表达式:field_name IS NULL
      • 说明:该过滤条件适用于需要检查某个字段是否为空的情况。
    2. 字段值不为空:

      • 表达式:field_name IS NOT NULL
      • 说明:该过滤条件适用于需要检查某个字段是否非空的情况。
    3. 字段值等于特定值:

      • 表达式:field_name = 'specific_value'
      • 说明:该过滤条件适用于需要检查字段是否等于指定值的情况。将specific_value替换为实际的特定值。
    4. 字段值在指定范围内:

      • 表达式:field_name BETWEEN min_value AND max_value
      • 说明:该过滤条件适用于需要检查字段值是否在指定范围内的情况。将min_valuemax_value替换为实际的最小值和最大值。
    5. 字段值满足正则表达式:

      • 表达式:REGEXP_LIKE(field_name, 'regex_pattern')
      • 说明:该过滤条件适用于需要检查字段值是否满足特定正则表达式的情况。将regex_pattern替换为实际的正则表达式。
    2023-12-17 14:21:34
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多