开发者学堂课程【SaaS 模式云数据仓库系列课程 —— 2021数仓必修课:DataWorks 数据质量】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/55/detail/1193
DataWorks 数据质量
Why数据质量
l 为什么要有数据质量?
1. 1970 年入网的淘宝用户:马总6 岁操作 ARPANET 网?
2. 彩票订单为负值:淘宝从用户手中买彩票?
3. 一条物流单不同字段分别记录了北京和上海:中国直辖市合并?
4. 一个人旺旺登录日时长超过 24 小时:地球停转之日?
5.交易基础表的金额字段从“元”改成“分”,数值扩大一百倍,导致下游阿里金融的信贷
授信模型给商家的授信金额同步扩大,风险资金敞口几个亿,风险贷款上百万;
l 数据质量问题的存在,严重阻碍了数仓的最终落地
l DataWorks 数据质量解决方案
数据质量,依托 DataWorks 平台,提供全链路的数据质量方案,包括:数据探查、数据对比,数据质量监控、SQLScan、智能报警等能力;
数据质量监控,全程监控数据加工流水线,根据质量规则及时发现问题,通过强弱报警通知开发同学及时处理问题。
数据探查、数据对比、SQLScan 主要针对开发阶段,帮助开发人员快速了解数据特点和关系,匹配校验规则,上线前阻止质量问题的发生。即将上线,敬请期待。
l DataWorks 数据质量监控流程
l DataWorks 数据质量监控流程-自定义规则
1.表级、字段级自定义规则支持根据业务属性自定义 where 过滤条件
2.自定义 S QL 支持完全自定义 SQL 逻辑(注意:返回结果需要单行单列输出)
l 报警与阻塞
1、设置强规则或弱规则:
a.如果设置强规则,红色异常报警并阻塞下游任务节点,橙色异常报警不阻塞。
b.如果设置弱规则,红色异常报警不阻塞下游任务节点,橙色异常不报警不阻塞。
2、强质量规则的红色报警阻塞下游任务节点,防止质量问题扩散/计算资源浪费
3、报警通过短信/邮件/ Webhook三种方式发送,Webhook 遵循钉钉群机器人协议
l 流式数据质量同样需要关注
l 流式数据质量同样需要关注
小结
离线数据
l .43 种模板规则,覆盖表级、字段级共 15 种采样方式,10 种校验方式
l 自定义规则,支持 SQL 方式自由定义
l 强规则阻塞下游任务,弱规则提醒人工介入
实时数据
l 数据断流、数据延迟两种监控模板
l 自定义 Flink SQL,支持维表 join、多流 join 以及窗口函数等流计算特性
质量告警
l 支持短信、邮件告警到个人
l 支持 Webhook 方式与第三方系统对接,可直接发送到钉钉群