开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks数据质量中的分区表达式,是仅支持时间作为分区表达式的么?

DataWorks数据质量中的分区表达式,是仅支持时间作为分区表达式的么?

展开
收起
真的很搞笑 2023-12-03 16:32:28 32 0
4 条回答
写回答
取消 提交回答
  • 数据质量通过分区表达式来确定数据质量校验的表分区数据。

    此步骤中,您需要监控目标表ods_raw_log_d表达式$[yyyymmdd-1]所匹配的分区数据是否符合预期,即在ods_raw_log_d表每次监控规则执行时,监控其业务时间对应分区的数据是否符合数据质量校验规则。步骤如下:https://help.aliyun.com/zh/dataworks/getting-started/configure-rules-to-monitor-data-quality?spm=a2c4g.11186623.0.i118

    2023-12-05 12:36:55
    赞同 1 展开评论 打赏
  • 在DataWorks的数据质量模块中,分区表达式并不仅限于时间。实际上,分区表达式可以根据你的需求自由定义,包括时间、日期、自定义字段等都可以作为分区表达式的组成部分。

    例如,你可以这样定义分区表达式:partition by year(dt_column), month(dt_column),其中dt_column是你数据表中的一列,表示日期时间。这个分区表达式会将数据按照年和月的组合进行分区。

    同样,你也可以这样定义分区表达式:partition by custom_column,其中custom_column是你数据表中的一列,表示自定义字段。这个分区表达式会将数据按照自定义字段的值进行分区。

    总的来说,分区表达式的定义方式非常灵活,可以根据你的需求进行自由组合和选择。

    2023-12-05 10:06:54
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在DataWorks数据质量模块中,分区表达式不仅支持时间作为分区表达式,也可以基于表的分区字段设定。例如,日期字段可以使用类似 dt='2022-01-01' 的表达式来选择特定日期的数据。此外,通过定义合适的分区表达式,可以将数据按照一定的规则划分成多个分区,然后对每个分区进行数据质量检查和指标计算。

    具体来说,分区表达式是为了限定数据质量校验的数据范围,以提高数据质量校验任务的效率,并减少不必要的计算和资源消耗。例如,在离线数据校验场景下,数据质量通过表配置的分区表达式来匹配节点每天产出的表分区,当任务运行完成便会触发质量规则校验。同时,非分区表可以直接选择推荐的分区表达式中的 NOTAPARTITIONTABLE ,一级分区的表达式格式为:分区名=分区值 ,多级分区表达式格式为:1级分区名=分区值/2级分区名=分区值/N级分区名=分区值。

    2023-12-03 17:10:34
    赞同 展开评论 打赏
  • 在DataWorks数据质量(DQC)中,分区表达式不仅支持时间作为分区表达式,还可以使用其他列或表达式作为分区条件。这意味着您可以根据具体的业务需求选择适当的分区表达式。

    以下是一些常见的分区表达式类型:

    1. 时间分区表达式:这是最常见的分区表达式类型,基于时间字段(如日期、时间戳)进行分区划分。例如,按年、月、日等时间维度进行分区。

    2. 数值分区表达式:除了时间字段,还可以使用数值字段作为分区条件。例如,按客户ID、地区代码等数值字段进行分区。

    3. 列表分区表达式:基于指定的列值列表进行分区划分。例如,按部门名称或产品类型进行分区。

    4. 范围分区表达式:基于范围条件进行分区划分。例如,按销售额范围划分分区,如0-1000、1001-2000等。

    5. 自定义表达式:如果以上分区表达式无法满足需求,还可以使用自定义表达式进行分区划分。自定义表达式可以根据特定的业务逻辑和需求编写。

    2023-12-03 16:43:50
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多