作为一线开发对数据治理的认知

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 数据治理的目的是为了让数据更加准确,降低后续数据清洗的难度,节约成本,加强把控,好处是说不完的,但这实际开发中所遇到的问题却比好处要复杂,你可能考虑到所有的问题,但却无法预估问题解决的难度。

数据治理的目的是为了让数据更加准确,降低后续数据清洗的难度,节约成本,加强把控,好处是说不完的,但这实际开发中所遇到的问题却比好处要复杂,你可能考虑到所有的问题,但却无法预估问题解决的难度。

前不久读了一篇关于主数据治理的书,书里面有些理论给了我些许启发,比如提到数据治理的阶段,治理后所带来的各种优点,让我写文档的时候有很大的帮助,只不过工作中我感觉数据治理的难度很高,如果按照书中的说法,没有好的方法,耗费的时间,拉通的人力,足够让普通公司因此破产。

文中所得

数据治理的阶段

书中将数据治理的阶段分为五个阶段(初始级,可重复级,已定以级,已管理级,优化级,创新级)。

按照我的理解,初始级其实就是没有专门数据治理的情况,数据分析没有,或者是粗放式,凭借业务自己的理解开展工作,决策层完全依赖业务自身水准;可重复级就是有了初步的规范,这是目前市面上大部分大中型公司的现状,这不是我特意压低,而是实际就是如此,不说现在蓬勃发展的技术领域,单说数据领域,还是业务引导数据,不是数据推动业务,因为从各个业务系统回流的数据很多时候都只能适用于本身的营销和产品优化,不适用其他业务系统。

已定义级是大家现阶段追求的目标,经过长时间摸爬滚打,数据中的A就是A,你业务系统来个a,告诉我a是A,但是我可以有证据有信息的告诉你A!=a,不应该把a放在A里面,应该给a放在其他位置;已管理级是我的数据是标准,我可以拿着我的定义和各个系统的人沟通,他们这个月哪里好,哪里不好,数据的反应是真实的,应该把数据作为一把利剑,数据是材料,我们是打铁的。

最后的优化级则是个中间过程,这个我认为不应该单独分层,其实每一个层级都应该是优化级,如果真的想到了已管理级再到优化,请背一下大数据的四个V;最后的创新级那就是牛逼哄哄的了,你打开中国统计局,那个标准就可以了。

数据治理的优点

数据治理的优点,这玩意有点像画饼充饥,干数据开发的人都懂的什么叫没有使用的数据叫垃圾,书中很明确的表示了数据治理的成果是隐晦的,如果没有强有力的推动,那数据治理的优点就是0,不过数据治理如果有了一定成效,好处确实不少。

从营销上说,交叉销售是不是很重要,我明明有几百万到几千万的用户,知道他们的消费能力,知道他们的住址,知道他们的联系方式,却还得为了一款新的产品掏出几千万甚至几个亿来宣传;从采购上说,如果我是买冰淇淋的,我的囤货是不是可以更少,优化我的铺货;从IT部门说,我不是很理解一个业务部门三年换四个三方,如果我有数据,并且我是审计,我会好好和他们沟通。

从客户关系来说,渠道的经销商哪些好,哪些有风险;诸如此类,优点是需要通过点点滴滴的集市层来累加的。

数据治理的方法

书中对于数据治理的方法我感觉有些泛泛,也可能是我个人水平还没有到,书中核心是通过主数据治理来实现整体的数据治理,将数据治理的框架分为五个域,不同的人员负责不同的域,然后从元数据,主数据,数据质量一层层按照分析,设计,执行,评估来推动,理解下来就是调研实际情况确定概念模型,设计逻辑模型,出物理模型,评估数据。

自我思考

数据治理是一个长期的过程,也应该是一个明细的过程,从数据治理上来说,字段首先是有含义的,如何保证字段中的数据是符合含义的,又如何保证这些符合含义的数据格式是相同的,单一个字段,如果依靠主数据,是不太可能实现的,可如果要是一个字段一套清洗,难度和耗费的时间会很大;字段中空值是为什么空,清洗过度?ODS存在空值问题?

可是如果一个个字段去清洗,预算就先给你喊停,这个时候上面提到的分析-设计-执行-评估就派上用场了,理论指导现实,我们需要分析字段哪些是可以作为主数据字段,受到集团或者不同事业部把控的,哪些是需要着重设计不同清洗规则的;哪些是需要设置报警的,然后就开始执行,最后就是评估。

考虑完所有的字段就好了吗?自然不是,还需要考虑元数据,其实元数据是第一个需要考虑的,只不过高屋建瓴比一步步搭积木要难很多,所以可以在开发中考虑,元数据就是上面提到的字段名称,字段含义,单说一个省份,在交易模型,物流模型,员工模型里面都是不同的含义,如何取名,如何定义,一个开发理解了1+1=2,另外一个理解了2-1=1,又一个理解了2=1,bug就出来了。

实际问题

首先是开发人员的理解把控,不是技术层面的理解不同,而是要避免双方理解的不一致,需要有专门的审核机制和审核时间,这个在实际开发中很难办到,因为在产出都不是明确的情况下,很难有预算会把这部分算进去;

然后就是目前的外包机制,书中有提到请专门的解决方案专家或者项目组进行数据治理,从成本和效果上来说都是很好的选择,可数据治理的长期性也预示着成本和效果之间的把控很难,你没有办法要求在砍了一半预算的前提下要求乙方完成之前预期的效果,也没有办法衡量乙方多少事情是需要付钱的,多少是被白嫖的。

最后就是业务系统的压力了,如果有个部门是专门为找你茬或者减少你预算设立的,而且他们的发展还需要你的帮助,你会乐意吗?答案显而易见,专门的协调者是不能少的,不能畅想未来,却没有时间和人力去调研现状。

治理目的

数据治理的目的我理解其实就是为了一件事情,专业的话是打破数据孤岛,通俗的话就是让看起来互不相容的数据串联起来,从最初的制造到最后的售卖应该是一个环形,没有数据治理前或许能够将这个环形连上,只是道路是歪斜的,而有了数据治理可以让道路一马平川。

收益付出

看数据治理的收益是需要记录每个数据类型项目的开发成本和难度的,波动的折线图是比数字更有说服力的,现在的一次性沟通成本能够减少未来多次的沟通;降低报错问题出现的频率,中台的运维中应该有因为发散或者是数值类型错误导致的报错,这些工作在数据治理后会得到优化;反馈给业务的数据,不能说数据反馈到业务,数据类型的项目就等于了回报,业务根据这些数据产出的价值减去他之前没有这些数据产出的价值有一部分也是数据治理的效益。

上面主要是收益,那么付出呢?作为负责人,你可能会接受无止尽的加班,不知道和你对接的人什么时候有时间,你会面对很多突如其来的问题:同事的职位变动;预算的变动;上面的责问;业务的催促等等。作为开发,你会面临各种问题,永远没有结束的问题,沟通不到位,想甩开烂摊子离职的冲动,没有时间优化的代码。

我给出的办法就是预留时间,拆分问题,解决问题,解决重要且紧急的,沟通不重要但是紧急的,确定重要但是不紧急的,拒绝不重要而且不紧急的。

上面的数据治理不涉及数据集成,数据存储等等,仅仅针对数据开发阶段,别问我为什么不说,因为我接触太少。

目录
相关文章
|
SQL 数据采集 运维
从数据到价值,DataOps精益数据运营概述
DevOps大家可能比较熟悉,但对于概念相近的DataOps大家可能还不清楚。简单来说,如果DevOps是更快交付软件的一种理念,那DataOps就是"更快交付高质量数据"的一种理念。 我们星轨工具团队过去围绕数据链路,沉淀了很多工具和组件,提升了我们数据域项目交付的效率和质量,这和DataOps提倡的聚焦数据链路,从全局提效很匹配。因此我们结合DataOps理念做了一些探索和实践,本文会详细给大家介绍下DataOps理念。
2207 2
从数据到价值,DataOps精益数据运营概述
|
5月前
|
人工智能 供应链 测试技术
CIO们在运营、创新、IT和业务的关系及如何利用GenAI方面的九大经验教训
CIO们在运营、创新、IT和业务的关系及如何利用GenAI方面的九大经验教训
|
6月前
数据研发问题之数据研发推进认知提升如何解决
数据研发问题之数据研发推进认知提升如何解决
|
存储 监控 架构师
十年业务开发总结,如何做好高效高质量的价值交付
软件交付是一个非常复杂的过程和体系,需要保障好每个阶段的质量和效率才能保障最终的质量和效率。本文将尝试从需求交付的前、中、后三个环节来阐述一下如何做高效高质量的价值交付。
142498 3
|
Cloud Native 前端开发 IDE
「技术人生」第10篇:如何做研发效能提升(即指标体系建设过程回顾)
本文作者将给大家提供一些简单的容易实操的方法,能够让所有人都知道什么是效能的提升,如何提升个人的效能,如何提升团队的效能。
1690 15
「技术人生」第10篇:如何做研发效能提升(即指标体系建设过程回顾)
|
数据挖掘
【业务架构】什么是价值实现——转型、项目和领导力
【业务架构】什么是价值实现——转型、项目和领导力
|
存储 数据采集 人工智能
谈谈数据中台建设启示
阿里巴巴的数据中台侧重对“烟囱式”应用数据的标准化和聚合,构建公共数据模型,发掘对内赋能运营和商家的数据价值。
谈谈数据中台建设启示
|
存储 数据采集 开发框架
数智洞察丨聆听数据思维“双声道”:数据战略与数据能力解析
编者按: 大数据应在社会中扮演什么样的角色?有人说数据是一种资源,大数据是新时代的“石油”;也有人认为数据是类似于土地的资产,其更多的价值来自所带来业务的指数级增长。而互联网之父蒂姆·伯纳斯·李提出的观点是“数据是一种公共基础设施”,强调数据作为基础将支撑起一个城市的创新体系。本期内容我们将从数据战略与数据能力入手,深度剖析数据思维首要解决的两大问题。 本文约3532字,建议阅读时间9分钟。
318 0
|
运维 分布式计算 DataWorks
阿里大淘系模型治理阶段性分享
阿里大淘系数据体系经过多年发展,通过丰富的数据和产品支撑了复杂的业务场景,在数据领域取得了非常大的领先优势。随着数据规模越来越大,开发人员越来越多,虽有阿里大数据体系规范进行统一管理,但是由于没有在产品侧进行有效的模型设计和管控,在模型规范性、应用层效率、通用层复用性等方面的问题逐渐凸显。计存成本提升、效率降低、规范减弱、数据使用难度变大、运维负担增加等。为了解决这些问题,我们进行了大淘系模型治理专项,在数据服务业务的同时,追求极致的降本提效目标。
2121 2
阿里大淘系模型治理阶段性分享