作为一线开发对数据治理的认知

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
大数据开发治理平台 DataWorks,不限时长
简介: 数据治理的目的是为了让数据更加准确,降低后续数据清洗的难度,节约成本,加强把控,好处是说不完的,但这实际开发中所遇到的问题却比好处要复杂,你可能考虑到所有的问题,但却无法预估问题解决的难度。

数据治理的目的是为了让数据更加准确,降低后续数据清洗的难度,节约成本,加强把控,好处是说不完的,但这实际开发中所遇到的问题却比好处要复杂,你可能考虑到所有的问题,但却无法预估问题解决的难度。

前不久读了一篇关于主数据治理的书,书里面有些理论给了我些许启发,比如提到数据治理的阶段,治理后所带来的各种优点,让我写文档的时候有很大的帮助,只不过工作中我感觉数据治理的难度很高,如果按照书中的说法,没有好的方法,耗费的时间,拉通的人力,足够让普通公司因此破产。

文中所得

数据治理的阶段

书中将数据治理的阶段分为五个阶段(初始级,可重复级,已定以级,已管理级,优化级,创新级)。

按照我的理解,初始级其实就是没有专门数据治理的情况,数据分析没有,或者是粗放式,凭借业务自己的理解开展工作,决策层完全依赖业务自身水准;可重复级就是有了初步的规范,这是目前市面上大部分大中型公司的现状,这不是我特意压低,而是实际就是如此,不说现在蓬勃发展的技术领域,单说数据领域,还是业务引导数据,不是数据推动业务,因为从各个业务系统回流的数据很多时候都只能适用于本身的营销和产品优化,不适用其他业务系统。

已定义级是大家现阶段追求的目标,经过长时间摸爬滚打,数据中的A就是A,你业务系统来个a,告诉我a是A,但是我可以有证据有信息的告诉你A!=a,不应该把a放在A里面,应该给a放在其他位置;已管理级是我的数据是标准,我可以拿着我的定义和各个系统的人沟通,他们这个月哪里好,哪里不好,数据的反应是真实的,应该把数据作为一把利剑,数据是材料,我们是打铁的。

最后的优化级则是个中间过程,这个我认为不应该单独分层,其实每一个层级都应该是优化级,如果真的想到了已管理级再到优化,请背一下大数据的四个V;最后的创新级那就是牛逼哄哄的了,你打开中国统计局,那个标准就可以了。

数据治理的优点

数据治理的优点,这玩意有点像画饼充饥,干数据开发的人都懂的什么叫没有使用的数据叫垃圾,书中很明确的表示了数据治理的成果是隐晦的,如果没有强有力的推动,那数据治理的优点就是0,不过数据治理如果有了一定成效,好处确实不少。

从营销上说,交叉销售是不是很重要,我明明有几百万到几千万的用户,知道他们的消费能力,知道他们的住址,知道他们的联系方式,却还得为了一款新的产品掏出几千万甚至几个亿来宣传;从采购上说,如果我是买冰淇淋的,我的囤货是不是可以更少,优化我的铺货;从IT部门说,我不是很理解一个业务部门三年换四个三方,如果我有数据,并且我是审计,我会好好和他们沟通。

从客户关系来说,渠道的经销商哪些好,哪些有风险;诸如此类,优点是需要通过点点滴滴的集市层来累加的。

数据治理的方法

书中对于数据治理的方法我感觉有些泛泛,也可能是我个人水平还没有到,书中核心是通过主数据治理来实现整体的数据治理,将数据治理的框架分为五个域,不同的人员负责不同的域,然后从元数据,主数据,数据质量一层层按照分析,设计,执行,评估来推动,理解下来就是调研实际情况确定概念模型,设计逻辑模型,出物理模型,评估数据。

自我思考

数据治理是一个长期的过程,也应该是一个明细的过程,从数据治理上来说,字段首先是有含义的,如何保证字段中的数据是符合含义的,又如何保证这些符合含义的数据格式是相同的,单一个字段,如果依靠主数据,是不太可能实现的,可如果要是一个字段一套清洗,难度和耗费的时间会很大;字段中空值是为什么空,清洗过度?ODS存在空值问题?

可是如果一个个字段去清洗,预算就先给你喊停,这个时候上面提到的分析-设计-执行-评估就派上用场了,理论指导现实,我们需要分析字段哪些是可以作为主数据字段,受到集团或者不同事业部把控的,哪些是需要着重设计不同清洗规则的;哪些是需要设置报警的,然后就开始执行,最后就是评估。

考虑完所有的字段就好了吗?自然不是,还需要考虑元数据,其实元数据是第一个需要考虑的,只不过高屋建瓴比一步步搭积木要难很多,所以可以在开发中考虑,元数据就是上面提到的字段名称,字段含义,单说一个省份,在交易模型,物流模型,员工模型里面都是不同的含义,如何取名,如何定义,一个开发理解了1+1=2,另外一个理解了2-1=1,又一个理解了2=1,bug就出来了。

实际问题

首先是开发人员的理解把控,不是技术层面的理解不同,而是要避免双方理解的不一致,需要有专门的审核机制和审核时间,这个在实际开发中很难办到,因为在产出都不是明确的情况下,很难有预算会把这部分算进去;

然后就是目前的外包机制,书中有提到请专门的解决方案专家或者项目组进行数据治理,从成本和效果上来说都是很好的选择,可数据治理的长期性也预示着成本和效果之间的把控很难,你没有办法要求在砍了一半预算的前提下要求乙方完成之前预期的效果,也没有办法衡量乙方多少事情是需要付钱的,多少是被白嫖的。

最后就是业务系统的压力了,如果有个部门是专门为找你茬或者减少你预算设立的,而且他们的发展还需要你的帮助,你会乐意吗?答案显而易见,专门的协调者是不能少的,不能畅想未来,却没有时间和人力去调研现状。

治理目的

数据治理的目的我理解其实就是为了一件事情,专业的话是打破数据孤岛,通俗的话就是让看起来互不相容的数据串联起来,从最初的制造到最后的售卖应该是一个环形,没有数据治理前或许能够将这个环形连上,只是道路是歪斜的,而有了数据治理可以让道路一马平川。

收益付出

看数据治理的收益是需要记录每个数据类型项目的开发成本和难度的,波动的折线图是比数字更有说服力的,现在的一次性沟通成本能够减少未来多次的沟通;降低报错问题出现的频率,中台的运维中应该有因为发散或者是数值类型错误导致的报错,这些工作在数据治理后会得到优化;反馈给业务的数据,不能说数据反馈到业务,数据类型的项目就等于了回报,业务根据这些数据产出的价值减去他之前没有这些数据产出的价值有一部分也是数据治理的效益。

上面主要是收益,那么付出呢?作为负责人,你可能会接受无止尽的加班,不知道和你对接的人什么时候有时间,你会面对很多突如其来的问题:同事的职位变动;预算的变动;上面的责问;业务的催促等等。作为开发,你会面临各种问题,永远没有结束的问题,沟通不到位,想甩开烂摊子离职的冲动,没有时间优化的代码。

我给出的办法就是预留时间,拆分问题,解决问题,解决重要且紧急的,沟通不重要但是紧急的,确定重要但是不紧急的,拒绝不重要而且不紧急的。

上面的数据治理不涉及数据集成,数据存储等等,仅仅针对数据开发阶段,别问我为什么不说,因为我接触太少。

目录
相关文章
|
SQL 数据采集 运维
从数据到价值,DataOps精益数据运营概述
DevOps大家可能比较熟悉,但对于概念相近的DataOps大家可能还不清楚。简单来说,如果DevOps是更快交付软件的一种理念,那DataOps就是"更快交付高质量数据"的一种理念。 我们星轨工具团队过去围绕数据链路,沉淀了很多工具和组件,提升了我们数据域项目交付的效率和质量,这和DataOps提倡的聚焦数据链路,从全局提效很匹配。因此我们结合DataOps理念做了一些探索和实践,本文会详细给大家介绍下DataOps理念。
1754 2
从数据到价值,DataOps精益数据运营概述
|
11月前
|
自然语言处理 达摩院
带你读《达摩院智能客服知识运营白皮书》——3.3.1 知识提炼:知识管理的原则
带你读《达摩院智能客服知识运营白皮书》——3.3.1 知识提炼:知识管理的原则
104 0
|
Cloud Native 前端开发 IDE
「技术人生」第10篇:如何做研发效能提升(即指标体系建设过程回顾)
本文作者将给大家提供一些简单的容易实操的方法,能够让所有人都知道什么是效能的提升,如何提升个人的效能,如何提升团队的效能。
1361 1
「技术人生」第10篇:如何做研发效能提升(即指标体系建设过程回顾)
|
移动开发 前端开发 小程序
团队和技术建设的方法论
团队和技术建设的方法论
280 0
|
运维 分布式计算 DataWorks
阿里大淘系模型治理阶段性分享
阿里大淘系数据体系经过多年发展,通过丰富的数据和产品支撑了复杂的业务场景,在数据领域取得了非常大的领先优势。随着数据规模越来越大,开发人员越来越多,虽有阿里大数据体系规范进行统一管理,但是由于没有在产品侧进行有效的模型设计和管控,在模型规范性、应用层效率、通用层复用性等方面的问题逐渐凸显。计存成本提升、效率降低、规范减弱、数据使用难度变大、运维负担增加等。为了解决这些问题,我们进行了大淘系模型治理专项,在数据服务业务的同时,追求极致的降本提效目标。
2057 2
阿里大淘系模型治理阶段性分享
|
监控 大数据 物联网
重点人员管控系统开发,大数据合成作战平台建设
重点人员管控系统,大数据合成研判平台架构通过“物联网”技术进行身份、车牌、人脸、手机、指纹和声音等信息录入采集,传输至平台,并与公安己有数据资源对接,进行大数据深层挖掘和智能研判应用,不仅可以对人员、车辆、事件等实时监控报警,还可以对比进行分析研判合成,从而做到提前布控和精准拦截,为公安人员提供有力的数据支撑。
171 0
|
监控 大数据 数据管理
政法大数据人员管控系统开发,重点关注人员联防联控平台建设
政法大数据人员管控系统,是以政法委为统筹核心,横向打通公安、检察、法院、司法、监狱 等部门,纵向贯通中央、省、市、县、乡五个层级,综合运用现代科技成果,统一管控操作平台、统一执行标准、 统一协调联动、统一管理监督,实现对九类重点人员及流动人口进行全流程、全覆盖、全天候数字化管理。
258 0
|
数据采集 移动开发 监控
十年经验产品经理分享:如何搭建一个行之有效的“数据闭环”体系
打造数据闭环体系,就是要完成数据对于产品产生价值的闭环,让数据驱动产品增长。本文作者从数据闭环的概念出发,结合具体案例,从目标、洞察、迭代、落地这四个方面对搭建数据闭环体系的关键要点进行了分析讨论,一起来看看~
十年经验产品经理分享:如何搭建一个行之有效的“数据闭环”体系
|
数据采集 移动开发 监控
阿里巴巴产品经理分享如何搭建一个行之有效的“数据闭环”体系
很多公司认为做数据驱动就应该有一个高大上的数据平台,这两年标签画像平台或者数据中台的概念比较火,它们真的能够实现数据驱动吗?不见得。目前,很多公司的数据质量非常差,数据驱动就更无从谈起,这是国内大中小企业普遍存在的情况。
阿里巴巴产品经理分享如何搭建一个行之有效的“数据闭环”体系
|
搜索推荐 大数据
风剑分享 | 只有数据最懂公司的痛点,指导企业决策走向
在2018中国大数据高峰论坛上,数澜科技CEO风剑分享了对数据资产化的理解、大数据平台的建设、大数据落地过程中的挑战,以及数据应用在未来的机遇与挑战。具体全文摘录如下: 一、什么是数据资产化 “数据资产化是数澜一直秉持的概念并持续在做的事情”。