小议数据与治理

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介:

前言


数据治理这项基础数据能力的重要性越来越多突出。2017年4月22日,中国数据标准化及治理奖实践奖的现场评审在清华大学成功举行。

中国数据标准化及治理奖评选结果公布


但无论是刚刚数据治理接触的朋友还是已经从业多年的朋友,对于其中的一些基本概念的理解似乎还有不少版本,最近在微信群中也有一些讨论。考虑到这些概念主要是来自国际,涉及到字面翻译及实质上与本地文化落地融合的问题,各方就更难达成共识。理越辨越明,却无需强求达成共识,各学科发展本就有诸多流派,在互相碰撞中彼此启发、推动领域整体发展,这是有益之事。本文题为“小议”,一方面是说并非权威论述、只是表达一家之言;另一方面,本篇求得轻松自在一些,对读者有些启发即可。


在本文中,我们主要探讨最基本的两个概念:数据,治理。在这两个基本词汇之外,其实还有诸多需要辨析的概念,比如:数据模型与数据标准,数据标准与元数据,元数据与主数据等等,且留待以后合适的机会另行成文吧。


什么是数据?


谈数据治理,还是应该先谈数据。有关数据,在网络和各类大数据书籍中有许多定义,无法一一列举,只推荐《数据质量测量的持续改进》一书对数据的探讨。



在书中,作者首先介绍了DAMA DMBOK及多位业界专家对数据的定义,然后提出了自己的定义:


Data are abstract representations of selected characteristics of real-world objects, events, and concepts, expressed and understood through explicitly definable conventions related to their meaning, collection, and storage.


数据是对真实世界的对象、事件和概念的被选择的属性的抽象表示,通过可明确定义的约定对其含义、采集和存储进行表达和理解。


不难看出,作者在信息化背景下,对数据的定义进行了非常考究的诠释。我们先抛开信息化背景,对这张图概括:数据,是人对客观世界的记录。严格来讲,还应该补充一点:数据,是人对客观世界的记录和判断。为何加上判断?因为我们一直在做各种数据统计、数据加工、数据分析、数据挖掘,希望以此洞察客观世界中存在的规律并对未来作出预测和判断。这些预测和判断,也被作为数据记录在信息系统中。


遵循上述定义再考虑信息化的背景,不难理解:客观世界的人、事、物,在信息系统中被记录下来,而记录哪些属性,则是由系统设计师、数据架构师,根据业务目标进行了裁剪和选择,“记录企业希望记录的内容”。那么,一系列的问题就来了:企业的“希望记录的”是什么?这个希望是否达成了共识?这个希望是否真的在真实世界中可以被记录?系统设计师、数据架构师是否理解了这些希望?信息系统、数据架构的设计,是否表达了这些希望?使用系统、使用数据的人,是否理解这些希望?使用者又有哪些希望?这些希望是否融入了企业的希望中?使用者是否能理解这些数据?....上面这些问题中,如果有一两个存在不确定、模糊的理解,就会影响到最终数据使用者的满意度,即:数据不能符合使用需求(Not fit for purpose)——数据质量不好。


因此,以提升数据质量为目标,我们要充分理解客观世界(即企业的业务活动)、明确“企业的希望”、达成共识、设计合理的信息系统和数据架构、管理好数据定义(元数据)、确保数据生成方、数据使用方对数据的理解一致、并对上述过程中的关键点进行适当检查、监控,确保数据忠实记录了客观世界、反映了企业的数据使用希望...这段话,做数据治理的朋友们应该都能更好的理解了。这也是为什么笔者非常推荐这个版本对数据的定义——从数据的本质是什么,到数据如何生成、如何理解,再到数据质量问题产生的根源。在原书中还有另一张有启发意义的图,结合了香农信息论的原理说明了数据质量问题产生的原因,就不再展开介绍了。



什么是治理?


谈过了数据,我们再来推敲一下何为治理。治理对应的英文是Governance,但是Governance对应的词,却不止是治理,下文再来谈。之前曾经考察过几个与数据治理相关的词,在此做些分析。


  • 治理:


治理是或公或私的个人和机构经营管理相同事务的诸多方式的总和。它是使相互冲突或不同的利益得以调和并且采取联合行动的持续的过程。——全球治理委员会


解读:第一句比较抽象,但第二句的含义很明确——协调多个利益相关方的目标、达成共识、一致行动,强调的更多是横向协同的关系。用一张图来形象的比喻,治理是这样的:



  • 公司治理:


从广义角度理解,是研究企业权力安排的一门科学。从狭义角度上理解,是居于企业所有权层次,研究如何授权给职业经理人并针对职业经理人履行职务行为行使监管职能的科学。——百度百科


解读:公司治理的定义中,已经和前面所说的治理有了一些区别,将相关方在纵向上分为了“企业所有权层次”和“职业经理人层次”,一方面强调授权,一方面强调监管。在用一张图来比喻,公司治理是这样的:



  • 数据治理:


数据治理是对数据资产的管理活动行使权力和控制的活动集合(规划、监控和执行)。——DAMA 国际数据管理协会


解读:有关DAMA对于数据治理的定义,以及数据治理与数据管理的区别,我们已经讨论过很多次了,在此不再重复,给出一张图来做简要说明。值得指出的是,在国外语境下,治理仅包括目标、原则、组织、制度、流程等软性要求,取其“狭义”;而在国内语境下,会将数据架构、数据标准、数据质量、数据安全等一系列数据管理活动纳入数据治理的范畴,取其“广义”。



对比“治理、公司治理、数据治理”三个概念,不难发现,类似于公司治理,数据治理的概念区分了“治理层与管理层”,强调了治理层与管理层的纵向分权以及治理层对管理层的管理(指导、评估、监督),但对于“促成利益不同的相关方达成共识和一致行动”,这一关键含义强调的还不够。这实际上会对数据治理的实践产生一些误导:只强调纵向管理、忽视了横向协同。


在这里,也不妨斗胆给出御数坊对数据治理的定义,供参考、探讨:


数据治理,是组织为实现数据资产价值最大化所开展的一系列持续工作过程,明确数据相关方的责权、协调数据相关方达成数据利益一致、促进数据相关方采取联合数据行动。


  • 数据治理 vs 数据管控:


在中文语境下有一个和“治理”非常类似的词——“管控”,Data Governance早期也被翻译为数据管控,所以我们这里要特别谈一谈管控,辨析数据治理与数据管控的区别。


如果大家感兴趣,可以做个搜索。你会发现“管控”在理论层面没有非常标准的学术定义,一般会解释为“管理和控制”。但是,无论根据法约尔对“管理五大职能”的定义——计划、组织、指挥、协调、控制,还是根据DAMA DMBOK将数据管理活动分为的四类——计划、开发、控制、操作,控制已经属于管理或数据管理职能之一,那么管控一词,似乎显得有些“画蛇添足”了。


在实践应用层面,管控一词主要用于集团企业的管控模式——包括战略管控、财务管控、运营管控,强调的是集团总部对下属分子公司的纵向管控深度、力度不同,这在国内企业管理环境中显得特别突出。


从作用方向来看,用“数据管控”一词替代“数据治理”,加剧了这种纵向管控的文化,非常强调“总部定标准、下属公司执行”。由此,企业做所谓的“数据管控”项目,从某些业务条线、某些系统出发定义了不少数据模型、数据标准,也许能够实现“纵向到底”的管控深度。但由于跨业务、跨系统的横向协同不力,过于强调纵向管控实际上建立了一个又一个的“数据烟囱”,根本无法实现“横向到边”的顺畅协同,数据质量问题仍然多发、企业各个职能也就无法实现高效运转。



从作用时间维度来看,“数据管控”更侧重的是对增量数据的管理和控制,而“数据治理”则会关注存量数据+增量数据,在理清存量数据问题的基础之上,治好增量数据。因此,我们强调,无论是管理还是治理,“理”是前提,“管”或“治”是跟进措施,没有理的基础,就没有管或治的依据。



结语


根据CMMI的数据管理成熟度模型(DMM)的设计思路,数据为什么需要治理?是因为不同业务背景的人、业务背景与IT背景的人对数据的理解不一致,因此,业务术语、元数据这两个与“数据定义、数据理解”相关的领域,被放入了数据治理主题中进行成熟度评估。由此可见,业务术语的重要性。作为数据治理从业者,如果我们连我们自身工作所谈的“数据”与“治理”这两个我们业务术语的概念都没有理清,又何谈帮助企业把他们的数据、他们的业务术语治理好呢?


希望以此文更清晰的说明:在谈论数据治理的时候,我们在谈论什么?


作者简介


刘晨,数据治理与管理领域专家、御数坊创始人/CEO。国际数据管理协会中国分会(DAMA China)副会长,清华大数据产业联合会副秘书长,信标委大数据标准化工作组成员、ITSS数据治理标准工作组成员,国际信息和数据质量协会(IAIDQ)会员,获得企业数据管理成熟度评估专家(EDME),数据管理专业认证(CDMP),数据治理专业认证(DGP),信息质量专业认证(IQCP)等多项国际认证。拥有IT行业12年以上、数据治理与管理领域8年从业经验,长期参与通信、金融、能源等行业的大型企业数据管理项目的规划与实施,在本领域拥有扎实的理论和实践经验。


原文发布时间为:2017-05-12

本文作者:刘晨

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”微信公众号

相关实践学习
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
相关文章
|
2月前
|
监控 关系型数据库 MySQL
数据治理平台Datavines
【10月更文挑战第20天】随着数据量的增长和数字化转型的推进,数据治理成为关键议题。Datavines是一个开源的数据治理平台,提供数据目录、概览及质量检查等功能,帮助用户全面了解和管理数据,确保数据的准确性和有效性。通过简单的部署和配置,即可快速启动使用,支持数据源配置、质量监控及作业管理等核心功能。
344 10
|
5月前
|
安全 项目管理 数据安全/隐私保护
|
SQL 存储 安全
浅谈数据治理
浅谈数据治理
140 0
|
存储 SQL 固态存储
数据治理之数据生命周期管理
数据治理之数据生命周期管理
|
存储 数据采集 安全
【数据治理】什么是数据治理模型?
【数据治理】什么是数据治理模型?
|
数据采集 存储 机器学习/深度学习
数据治理的三度修炼
所有企业都需要计划如何使用数据,以便在整个业务中一致地处理和使用数据,以支持业务结果。
数据治理的三度修炼
|
数据采集 SQL 分布式计算
全链路数据治理-3
全链路数据治理-3
164 0
|
数据采集 SQL 机器学习/深度学习
Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展
数据质量是数据建设和管理中非常重要的一环。所有的数据应用,不论是用于支持业务开展的数据库,还是用于支持商业决策,或者用于机器学习和人工智能等高级应用,实现数据价值的前提是数据本身是高质量的,是可靠和可信的。
Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展
|
存储 数据采集 数据管理
说说数据治理中常见的20个问题
数据治理是一项战略计划,用于优化企业处理数据的方式。它旨在组织和改进公司用于定义、收集、存储、保护、管理和货币化业务数据的政策和程序。
|
数据采集 数据管理 数据挖掘
数据治理的一疑乙易
在数据爆炸式增长的时代,数据又成为重要的生产要素之一,数据治理就成为很多企业关注的重点。