DataWorks 数据质量|学习笔记

本文涉及的产品
DataWorks Serverless资源组免费试用套餐,300CU*H 3个月
简介: 快速学习 DataWorks 数据质量

开发者学堂课程【SaaS 模式云数据仓库系列课程 —— 2021数仓必修课:DataWorks  数据质量】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/55/detail/1193


DataWorks  数据质量


Why数据质量

l 为什么要有数据质量?

1. 1970 年入网的淘宝用户:马总6 岁操作 ARPANET 网?

2. 彩票订单为负值:淘宝从用户手中买彩票?

3. 一条物流单不同字段分别记录了北京和上海:中国直辖市合并?

4. 一个人旺旺登录日时长超过 24 小时:地球停转之日?

5.交易基础表的金额字段从“元”改成“分”,数值扩大一百倍,导致下游阿里金融的信贷

授信模型给商家的授信金额同步扩大,风险资金敞口几个亿,风险贷款上百万;

l 数据质量问题的存在,严重阻碍了数仓的最终落地

图片4.png


l DataWorks 数据质量解决方案

数据质量,依托 DataWorks 平台,提供全链路的数据质量方案,包括:数据探查、数据对比,数据质量监控、SQLScan、智能报警等能力;

数据质量监控,全程监控数据加工流水线,根据质量规则及时发现问题,通过强弱报警通知开发同学及时处理问题。

数据探查、数据对比、SQLScan 主要针对开发阶段,帮助开发人员快速了解数据特点和关系,匹配校验规则,上线前阻止质量问题的发生。即将上线,敬请期待。

图片5.png


l DataWorks 数据质量监控流程

图片6.png

l DataWorks 数据质量监控流程-自定义规则

1.表级、字段级自定义规则支持根据业务属性自定义 where 过滤条件

2.自定义 S QL 支持完全自定义 SQL  逻辑(注意:返回结果需要单行单列输出)

 

l 报警与阻塞

图片7.png

1、设置强规则或弱规则:

a.如果设置强规则,红色异常报警并阻塞下游任务节点,橙色异常报警不阻塞。

b.如果设置弱规则,红色异常报警不阻塞下游任务节点,橙色异常不报警不阻塞。

2、强质量规则的红色报警阻塞下游任务节点,防止质量问题扩散/计算资源浪费

3、报警通过短信/邮件/ Webhook三种方式发送,Webhook 遵循钉钉群机器人协议

 

l 流式数据质量同样需要关注

图片8.png


l 流式数据质量同样需要关注

图片9.png


小结

离线数据

l .43 种模板规则,覆盖表级、字段级共 15 种采样方式,10 种校验方式

l 自定义规则,支持 SQL 方式自由定义

l 强规则阻塞下游任务,弱规则提醒人工介入

实时数据

l 数据断流、数据延迟两种监控模板

l 自定义 Flink SQL,支持维表 join、多流 join 以及窗口函数等流计算特性

质量告警

l 支持短信、邮件告警到个人

l 支持 Webhook 方式与第三方系统对接,可直接发送到钉钉群

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
1月前
|
数据采集 存储 DataWorks
DataWorks产品使用合集之如何查看数据质量中心(DQC)的规则执行记录
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
数据采集 DataWorks 关系型数据库
DataWorks产品使用合集之是否有数据质量检查功能
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
1月前
|
数据采集 SQL DataWorks
DataWorks产品使用合集之如何配置数据质量监控
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之如何配置周期任务(如工作流任务或调度任务)依赖于数据质量规则校验结果
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
64 0
|
3月前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之数据质量检测出现校验异常一般是什么造成的
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
22 0
|
3月前
|
数据采集 DataWorks 数据挖掘
DataWorks操作报错合集之出现报错数据质量校验不通过,但任务没有设置DQC校验,是什么导致的
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
3月前
|
数据采集 SQL DataWorks
DataWorks产品使用合集之如何使用UDF(用户自定义函数)来提升数据质量
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
数据采集 SQL 存储
DataWorks产品使用合集之DataWorks配置数据质量监控如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
88 4
|
4月前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之在DataWorks数据质量中,判断订阅成功的标准如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
64 0
|
4月前
|
数据采集 SQL 分布式计算
DataWorks产品使用合集之DataWorks数据质量里面模版规则 '表行数,上周期差值', 小时任务的周期使用的时间是 cyctime 还是 bizdate 如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
33 0

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    79
  • 2
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    85
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    92
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    67
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    71
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    76
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    91
  • 8
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    120
  • 9
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    72
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    85