开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

dataworks的数据质量检测,如何配置表全量的重复值监测,现在是只能单个分区监测吗?我现在配置单

dataworks的数据质量检测,如何配置表全量的重复值监测,现在是只能单个分区监测吗?我现在配置单个分区能够跑通,全分区就不行image.png

展开
收起
cuicuicuic 2023-08-08 16:28:16 52 0
1 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    你提到的情况可能确实存在一些限制。

    DataWorks的数据质量探针目前支持:

    单分区重复值监测,可以配置监测一个特定的分区;

    全量重复值监测(有限制)。

    具体来说:

    全量重复值监测需要设置采样率,如果采样率低,可能无法监测到全表的重复值问题。

    全量重复值监测需要合理设置误报率,否则容易由于重复值过多而误报。

    全量重复值监测实时性较差,只能 periodic 扫表。

    所以针对你的情况:

    单分区重复值监测能跑通是正常的;

    全表重复值监测可能由于采样率、误报率设置不当而无法正常工作。

    可以尝试:

    提高采样率,如设置为100%

    提高误报率阈值

    增加全表监测周期

    适当增加连续告警次数,去除溢报

    如果还不能解决,建议提供数据量级、监控要求、现有设置等信息,以便帮助更精确定位问题。

    2023-08-09 14:14:17
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多