dataworks的数据质量检测,如何配置表全量的重复值监测,现在是只能单个分区监测吗?我现在配置单个分区能够跑通,全分区就不行
你提到的情况可能确实存在一些限制。
DataWorks的数据质量探针目前支持:
单分区重复值监测,可以配置监测一个特定的分区;
全量重复值监测(有限制)。
具体来说:
全量重复值监测需要设置采样率,如果采样率低,可能无法监测到全表的重复值问题。
全量重复值监测需要合理设置误报率,否则容易由于重复值过多而误报。
全量重复值监测实时性较差,只能 periodic 扫表。
所以针对你的情况:
单分区重复值监测能跑通是正常的;
全表重复值监测可能由于采样率、误报率设置不当而无法正常工作。
可以尝试:
提高采样率,如设置为100%
提高误报率阈值
增加全表监测周期
适当增加连续告警次数,去除溢报
如果还不能解决,建议提供数据量级、监控要求、现有设置等信息,以便帮助更精确定位问题。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。