开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks数据质量配置datahub规则的要求是什么?

DataWorks数据质量配置datahub规则的要求是什么?

展开
收起
真的很搞笑 2023-08-07 20:00:59 47 0
2 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    配置DataWorks数据质量规则主要遵循以下要求:

    指标具体性:选择直观且能精准反应数据质量问题的指标,如空值率、重复率等。

    门槛明确:给出每个指标对应的合理门槛值,超过则判定为质量问题。

    告警级别分明:分级别高低设定不同的告警级别,有警(yellow)、中警(orange)、重警(red)等。

    触发周期合理:根据业务需求设定规则触发检查的周期,可以是每日/每小时/每分钟。

    影响度评判:区分问题的影响范围和严重程度,给出相应影响分值。

    处理责任明确:明确每个数据质量规则对应的处理团队或人员。

    重复值精准:尽量避免重复定义相似的规则。

    动态调整:根据问题反映及时优化规则配置,减少误报。

    2023-08-09 21:37:49
    赞同 展开评论 打赏
  • 配置数据质量规则时所使用的datahub的数据源要求:
    ①使用公共数据集成资源组测试其连通性
    ②datahub数据源的endpoint只能使用公网endpoint
    ③datahub数据源的endpoint仅支持http开头,不支持https开头,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-08-08 18:39:45
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多