作为一线开发对数据治理的认知

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: 数据治理的目的是为了让数据更加准确,降低后续数据清洗的难度,节约成本,加强把控,好处是说不完的,但这实际开发中所遇到的问题却比好处要复杂,你可能考虑到所有的问题,但却无法预估问题解决的难度。

数据治理的目的是为了让数据更加准确,降低后续数据清洗的难度,节约成本,加强把控,好处是说不完的,但这实际开发中所遇到的问题却比好处要复杂,你可能考虑到所有的问题,但却无法预估问题解决的难度。

前不久读了一篇关于主数据治理的书,书里面有些理论给了我些许启发,比如提到数据治理的阶段,治理后所带来的各种优点,让我写文档的时候有很大的帮助,只不过工作中我感觉数据治理的难度很高,如果按照书中的说法,没有好的方法,耗费的时间,拉通的人力,足够让普通公司因此破产。

文中所得

数据治理的阶段

书中将数据治理的阶段分为五个阶段(初始级,可重复级,已定以级,已管理级,优化级,创新级)。

按照我的理解,初始级其实就是没有专门数据治理的情况,数据分析没有,或者是粗放式,凭借业务自己的理解开展工作,决策层完全依赖业务自身水准;可重复级就是有了初步的规范,这是目前市面上大部分大中型公司的现状,这不是我特意压低,而是实际就是如此,不说现在蓬勃发展的技术领域,单说数据领域,还是业务引导数据,不是数据推动业务,因为从各个业务系统回流的数据很多时候都只能适用于本身的营销和产品优化,不适用其他业务系统。

已定义级是大家现阶段追求的目标,经过长时间摸爬滚打,数据中的A就是A,你业务系统来个a,告诉我a是A,但是我可以有证据有信息的告诉你A!=a,不应该把a放在A里面,应该给a放在其他位置;已管理级是我的数据是标准,我可以拿着我的定义和各个系统的人沟通,他们这个月哪里好,哪里不好,数据的反应是真实的,应该把数据作为一把利剑,数据是材料,我们是打铁的。

最后的优化级则是个中间过程,这个我认为不应该单独分层,其实每一个层级都应该是优化级,如果真的想到了已管理级再到优化,请背一下大数据的四个V;最后的创新级那就是牛逼哄哄的了,你打开中国统计局,那个标准就可以了。

数据治理的优点

数据治理的优点,这玩意有点像画饼充饥,干数据开发的人都懂的什么叫没有使用的数据叫垃圾,书中很明确的表示了数据治理的成果是隐晦的,如果没有强有力的推动,那数据治理的优点就是0,不过数据治理如果有了一定成效,好处确实不少。

从营销上说,交叉销售是不是很重要,我明明有几百万到几千万的用户,知道他们的消费能力,知道他们的住址,知道他们的联系方式,却还得为了一款新的产品掏出几千万甚至几个亿来宣传;从采购上说,如果我是买冰淇淋的,我的囤货是不是可以更少,优化我的铺货;从IT部门说,我不是很理解一个业务部门三年换四个三方,如果我有数据,并且我是审计,我会好好和他们沟通。

从客户关系来说,渠道的经销商哪些好,哪些有风险;诸如此类,优点是需要通过点点滴滴的集市层来累加的。

数据治理的方法

书中对于数据治理的方法我感觉有些泛泛,也可能是我个人水平还没有到,书中核心是通过主数据治理来实现整体的数据治理,将数据治理的框架分为五个域,不同的人员负责不同的域,然后从元数据,主数据,数据质量一层层按照分析,设计,执行,评估来推动,理解下来就是调研实际情况确定概念模型,设计逻辑模型,出物理模型,评估数据。

自我思考

数据治理是一个长期的过程,也应该是一个明细的过程,从数据治理上来说,字段首先是有含义的,如何保证字段中的数据是符合含义的,又如何保证这些符合含义的数据格式是相同的,单一个字段,如果依靠主数据,是不太可能实现的,可如果要是一个字段一套清洗,难度和耗费的时间会很大;字段中空值是为什么空,清洗过度?ODS存在空值问题?

可是如果一个个字段去清洗,预算就先给你喊停,这个时候上面提到的分析-设计-执行-评估就派上用场了,理论指导现实,我们需要分析字段哪些是可以作为主数据字段,受到集团或者不同事业部把控的,哪些是需要着重设计不同清洗规则的;哪些是需要设置报警的,然后就开始执行,最后就是评估。

考虑完所有的字段就好了吗?自然不是,还需要考虑元数据,其实元数据是第一个需要考虑的,只不过高屋建瓴比一步步搭积木要难很多,所以可以在开发中考虑,元数据就是上面提到的字段名称,字段含义,单说一个省份,在交易模型,物流模型,员工模型里面都是不同的含义,如何取名,如何定义,一个开发理解了1+1=2,另外一个理解了2-1=1,又一个理解了2=1,bug就出来了。

实际问题

首先是开发人员的理解把控,不是技术层面的理解不同,而是要避免双方理解的不一致,需要有专门的审核机制和审核时间,这个在实际开发中很难办到,因为在产出都不是明确的情况下,很难有预算会把这部分算进去;

然后就是目前的外包机制,书中有提到请专门的解决方案专家或者项目组进行数据治理,从成本和效果上来说都是很好的选择,可数据治理的长期性也预示着成本和效果之间的把控很难,你没有办法要求在砍了一半预算的前提下要求乙方完成之前预期的效果,也没有办法衡量乙方多少事情是需要付钱的,多少是被白嫖的。

最后就是业务系统的压力了,如果有个部门是专门为找你茬或者减少你预算设立的,而且他们的发展还需要你的帮助,你会乐意吗?答案显而易见,专门的协调者是不能少的,不能畅想未来,却没有时间和人力去调研现状。

治理目的

数据治理的目的我理解其实就是为了一件事情,专业的话是打破数据孤岛,通俗的话就是让看起来互不相容的数据串联起来,从最初的制造到最后的售卖应该是一个环形,没有数据治理前或许能够将这个环形连上,只是道路是歪斜的,而有了数据治理可以让道路一马平川。

收益付出

看数据治理的收益是需要记录每个数据类型项目的开发成本和难度的,波动的折线图是比数字更有说服力的,现在的一次性沟通成本能够减少未来多次的沟通;降低报错问题出现的频率,中台的运维中应该有因为发散或者是数值类型错误导致的报错,这些工作在数据治理后会得到优化;反馈给业务的数据,不能说数据反馈到业务,数据类型的项目就等于了回报,业务根据这些数据产出的价值减去他之前没有这些数据产出的价值有一部分也是数据治理的效益。

上面主要是收益,那么付出呢?作为负责人,你可能会接受无止尽的加班,不知道和你对接的人什么时候有时间,你会面对很多突如其来的问题:同事的职位变动;预算的变动;上面的责问;业务的催促等等。作为开发,你会面临各种问题,永远没有结束的问题,沟通不到位,想甩开烂摊子离职的冲动,没有时间优化的代码。

我给出的办法就是预留时间,拆分问题,解决问题,解决重要且紧急的,沟通不重要但是紧急的,确定重要但是不紧急的,拒绝不重要而且不紧急的。

上面的数据治理不涉及数据集成,数据存储等等,仅仅针对数据开发阶段,别问我为什么不说,因为我接触太少。

目录
相关文章
|
机器学习/深度学习 人工智能 大数据
|
存储 安全 Java
【NiFi】(一)NiFi 简介及核心概念
【NiFi】(一)NiFi 简介及核心概念
3393 0
【NiFi】(一)NiFi 简介及核心概念
|
运维 Devops Java
阿里巴巴DevOps实践指南(十三)| 测试提效
分布式测试为测试速度插上了翅膀,精准测试有效的识别出了测试的范围,增量覆盖率又为测试的不断完备提供了有利的指引,线上覆盖率帮助我们有效的进行应用瘦身。充分利用好这些技术手段进行测试提效,可以让持续交付的过程更加的顺畅
阿里巴巴DevOps实践指南(十三)| 测试提效
|
8月前
|
存储 传感器 人工智能
RFID货架物品管理迈入智能化
RFID技术赋能货架管理,实现非接触、批量、实时识别,提升盘点效率与准确率,支持智能入库、动态库存、防错拣货、全程追溯,推动零售仓储迈向自动化、智能化,降本增效。
|
8月前
|
传感器 安全 网络安全
《边缘安全深耕:零信任落地全维度解析》
本文聚焦制造业边缘设备安全痛点,结合实际项目实践,阐述零信任架构的落地路径与实战经验。制造业边缘环境存在设备身份管理缺失、权限控制粗放、通信安全漏洞等核心问题,传统防护难以适配异构互联、高连续性需求的场景。文章提出“身份锚定-动态授权-通信加密”三位一体方案,通过设备身份治理、权限体系重构、端到端加密筑牢安全基础,搭配“流量基线+行为建模”威胁检测策略及兼容性优化方案,解决老旧设备改造、误报率控制等实操难题。
402 0
|
11月前
|
数据采集 文字识别 供应链
易语言接单平台,易语言接单,易语言软件脚本工具定制
中小企业痛点:2025年仍有43%小微企业存在ERP/CRM定制需求但预算有限(数据来源:中国中小企业协会)
|
文字识别 Python
python做ocr卡证识别很简单
本示例展示了如何使用 `potencent` 库调用腾讯云 OCR 服务识别银行卡和身份证信息。代码中分别通过本地图片路径 (`img_path`) 和配置文件 (`potencent-config.toml`) 实现了银行卡和身份证的 OCR 识别,并输出结果。测试图片及结果显示了识别效果,需提前配置腾讯云的 `SECRET_ID` 和 `SECRET_KEY`。
579 8
|
机器学习/深度学习 人工智能 并行计算
NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!
NotaGen 是由中央音乐学院、北京航空航天大学、清华大学等机构联合推出的音乐生成模型,基于模仿大型语言模型的训练范式,能够生成高质量的古典乐谱。该模型通过预训练、微调和强化学习相结合的方式,显著提升了符号音乐生成的艺术性和可控性。
1562 15
NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!
|
存储 分布式计算 DataWorks
dataworks数据集成
dataworks数据集成
711 2
|
SQL 流计算 关系型数据库
基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析
阿里云OpenLake解决方案建立在开放可控的OpenLake湖仓之上,提供大数据搜索与AI一体化服务。通过元数据管理平台DLF管理结构化、半结构化和非结构化数据,提供湖仓数据表和文件的安全访问及IO加速,并支持大数据、搜索和AI多引擎对接。本文为您介绍以Flink作为Openlake方案的核心计算引擎,通过流式数据湖仓Paimon(使用DLF 2.0存储)和EMR StarRocks搭建流式湖仓。
1420 5
基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析