数据质量管理主要从6个方面考虑:完整性,规范性,一致性,准确性,唯一性,时效性。
首先,数据质量的保证紧靠技术是远远不够的。
在实际工作中,在整个数据质量的控制过程中,人的影响最大。
所以,要想真正长期保证数据的高质量,最重要的是早发现,早恢复。
早发现,就是要先于数据使用方发现数据的问题,尽可能在出现问题的源头发现问题,这样就为早恢复正取到了大量的时间。
早恢复,就是要缩短故障恢复时间,降低故障对数据产出的影响。
可以分事前、事中、事后三个阶段来保障的。
- 事前:
- 针对数据提供环节,建立数据标准,明确数据的定义,按照标准、质量提供数据。
应急预案准备,这里分为三个方面:
- 第一方面,建立制度保证,比如当问题出现时,这个问题是谁负责,沟通的机制是什么,后续
如果要修复线上bug的时候,应急的发布流程是什么,谁来负责开发,谁来负责做复合,谁来负责做审批。
- 第二方面,**定期巡检**,建立一个可复用的数据收集,数据预处理和数据维护流程,来应对不断变化的企业内外部因素,在数据预处理流程中设立多个性能监控点,我们会对数据产品,数据加工,基础架构设置一些关注的指标,比如CPU压力,线上的数据流量,延时时长等。(可参考本人写的[数据稽核](https://blog.csdn.net/weixin_42526352/article/details/105260011?spm=1001.2014.3001.5501)相关的文章)
- 第三方面,**应急处理**,当这些指标出现了告警的时候,会相应出发应急处理的流程,这些应急处理流程是之前对可能发生的情况进行一些预估,提前制定了一些处理问题的方案,
- 事中:
设立应急小组执行预案,持续对指标进行监控,如有意外的问题发生,及时分析问题根源,并快速制定决策,持续跟进效果。
- 事后:
数据问题复盘,策略沉淀。将原预案的遗漏点进行分析和梳理,将这部分的预案补上。同时对数据问题,比如数据出现延迟或者错误,则通过对流程或者制度不断进行改善和优化,将共性的质量问题沉淀至保障方案中。
监控指标:
- 数据落地监控
- 数据掉0监控:实际扩展一下就是数据量阈值监控,少于某个量就告警
- 重复数据监控:很多表一定要监控重复数据的,这点至关重要。
- 数据量、指标值同比环比监控
- 重要枚值字段的离散值监控
- 业务规则监控
- 重要字段的非空监控
- 数据对账