高质量数据能更好支撑业务发展
数据质量是数据建设和管理中非常重要的一环。所有的数据应用,不论是用于支持业务开展的数据库,还是用于支持商业决策,或者用于机器学习和人工智能等高级应用,实现数据价值的前提是数据本身是高质量的,是可靠和可信的。
数据质量的好坏,直接影响着业务的开展,下面是一些简单的示例:
良好的数据质量 |
糟糕的数据质量 |
1、数据支撑业务顺利开展,如 更精确的用户偏好,通过推荐提高用户的消费额 更实时的物流信息,优化物流分配和配送效率 更准确的仓储信息,优化仓储补货和管理 2、及时、准确的数据,支持高效的商务决策 |
1、业务开展受阻,如 无法正确开具发票,导致无法走财务流程 登记了错误的用户联系方式,导致货物无人接收 2、数据错误导致业务决策出错 3、最好的机器学习算法,遇到数据质量不足时,结果也不如人意 |
数据质量问题的来源众多,业务方面(业务规则未定义、业务输入控制)、管理方面(无完整数据治理体系)、技术方案(设计和开发脱节、数据采集有误等)都可能导致数据质量变差。完整的解决数据质量问题,需要从业务、管理和技术等多方面进行优化。
Dataphin数据质量可以帮助组织沉淀业务规则,并通过技术进行自动化的质量校验,同时支持告警、大盘等管理功能,助力企业解决数据质量问题,获得高质量数据来更好支持业务发展。
全域数据质量能力
【点击图片收看视频介绍】
全域数据质量是指对客户全场景/全数据源下的数据常用的数据场景,都可以进行数据质量监控,本次升级支持了大部分常用场景和计算源,并持续扩展中。
Dataphin当前能够对客户在数据处理中常用到的数据引擎、数据源和数据对象进行数据质量的监控,详细支持的列表如下:
质量校验对象 |
支持范围 |
质量校验能力 |
Dataphin表 |
支持Dataphin上的物理表和逻辑表的质量校验。支持Maxcompute、Hadoop系列(CDP、CDH、TDH等)、ADB等环境下数据表质量的校验 |
支持7种质量性质下24个模版共计100+不同监控指标的质量规则校验 该部分详见质量规则模版 |
全域表 |
支持MySQL、Oracle、Maxcompute、Hive等7种数据源表的质量检测,并持续扩展中 |
支持7种质量性质下24个模版共计100+不同监控指标的质量规则校验 该部分详见质量规则模版 |
数据源 |
注册到Dataphin上的数据源的稳定性,支持20+常见数据源的质量校验,并持续扩展中 |
1、数据源连通性 2、表结构变动监控 |
实时元表 |
Dataphin的实时元表 |
1、实时指标监控 2、实时离线对比 3、实时多条链路对比 |
指标 |
Dataphin生产的指标 |
1、指标的稳定性、唯一性等监控 |
质量规则模版
Dataphin数据质量,支持对数据表进行完整性、唯一性、及时性、有效性、一致性、稳定性、自定SQL等7种质量模版分类下24个模版共计100+不同监控指标的质量规则校验,7种质量模版分类介绍如下:
质量规则分类 |
分类说明(主要基于DAMA) |
举例 |
完整性 |
1、完备性用于对表/字段是否存在所有必要数据进行判断,用于检查数据是否完整 2、常用于判断字段填充率、必填/非空(填充率100%)等 |
企业有1000员工,只有600人有联系方式 |
唯一性 |
1、唯一性用于对字段是否唯一进行校验。 2、常用于判断主键/业务实体的唯一性、重复率等 |
员工身份证号码应该只出现一次 |
及时性 |
1、及时性用于对数据时间更新的频率和间隔进行验证 2、常用于判断业务日期/操作日期是否最新,时间间隔是否合理 |
A上午8点入职,10点才能在系统看到相关信息 |
有效性 |
1、有效性用于对数据内容填写是否符合规范进行校验 2、常用于对数据的类型/范围/长度格式进行校验 |
员工年龄-1岁,无效 |
一致性 |
1、一致性用于对比不同列、不同表之间的数据一致性或者业务一致性。 2、常用于比较不同数据表的主键是否相同、单价乘数量是否等于总价等 |
A在员工系统的公司职务是总监,在销售系统是主管 |
稳定性 |
1、稳定性用于校验数据产出是否稳定,也可以用于校验业务数据是否稳定 2、常用于校验数据总大小/总条数是否稳定,以及数据的汇总值、平均值是否稳定等 |
客户数量在10000家,当一个月波动20%的时候可能存在异常 |
自定义SQL |
支持自定义指标监控和自定义异常数据监控两种方式,分别针对数据统计值和数据详情进行质量监控 |
/ |
*这里仅针对模版的整体能力进行说明,每一个分类下都有更多的模版和应用场景,详见Dataphin产品手册
产品能力展示
1、质量大盘
质量大盘可以展示当前全局的校验规则情况和异常情况,有助于管理员快速发现整体问题,安排排查任务。
2、模版管理
模版管理可以查看质量当前所有的模版信息。
模版分为系统内置模版和自定义模版,系统模版开箱即用,可以用来快速创建质量规则。如果组织内有通用的需求(如:用户年龄区间有效性、财务数据准确性等),可以沉淀为通用的模版,用于业务质量规则的快速创建。
2.1、质量模版管理
2.2、新建自定义规则模版
3、质量规则
支持给质量监控对象(如表、数据源)配置质量规则,并设置告警阈值和规则强弱;配置调度后就可以定时或者跟随数据更新来自动触发质量的校验任务,完成后自动生成质量报告,并根据校验情况完成告警、阻断等后续操作。
3.1、质量规则管理
3.2、表的质量规则配置
3.3、新建质量规则
预览质量规则SQL
3.4、调度配置
3.5、告警配置
3.6、质量报告
3.7、质量规则试跑和运行
4、校验记录
校验记录可以查看每次校验规则执行的具体结果和详情,是每天检查数据质量和处理质量问题最常用的入口。Dataphin质量的校验记录,详细的记载了每次质量规则校验的时间、状态和执行详情,便于进行日常检查和错误排查。
4.1、资源粒度的校验记录
4.2、资源校验详情
5、数据源管理
数据源除了要进行数据质量检测任务外,还要进行日常的业务支撑。为了防止数据质量任务影响到日常业务,支持对单个数据源支持的最大质量并行度进行控制,当达到质量最大并行度时,新调度的质量规则会进入排队等待状态,以保护业务的正常开展。
最后,我们通过视频来了解下Dataphin数据质量模块的质量监控场景和具体的操作。