关于数据治理需要知道的六件事

简介: 许多组织希望在整个企业中共享数据集,但如何迈出第一步可能很困难。这些挑战包括从纯技术问题(如数据格式和API)到组织文化(管理者拒绝共享他们认为自己拥有的数据)。

    许多组织希望在整个企业中共享数据集,但如何迈出第一步可能很困难。这些挑战包括从纯技术问题(如数据格式和API)到组织文化(管理者拒绝共享他们认为自己拥有的数据)。数据治理是一组允许数据在企业中创造价值的实践。在启动数据治理计划时,许多组织选择应用最佳实践,例如在数据管理协会的知识体系(DAMA-BOK)中收集的那些实践。虽然这些实践定义了一个理想的最终状态,但经验是,试图在整个企业广泛地应用它们作为第一步可能是破坏性的、昂贵的,并且交付价值的速度很慢。在我与多个行业和政府组织的合作中,开发了一种增量式的方法来启动数据治理,可以很快获得回报。这篇文章强调了这种的方法,它基于六个原则。

   1. 数据集只有在用于决策时才会产生效益

   如果我们应用最佳实践,例如,清理数据集、发布其模式、分配数据管理员和开放API上的层,但没有人使用数据集,那么我们没有产生任何直接好处。决策和行动产生效益,除非我们使用数据集来支持决策,否则它只是招致成本。(“准备就绪”的数据集具有选择价值,但这不应该是您最初的数据治理重点)。

   2. 价值='收益-成本‘

   数据集的价值是它产生的收益(即数据集支持的决策的收益)减去使用数据集的成本之和。显然,我们希望这个值是正的。

   3.数据有一个价值链

   一个数据集的价值链有四个活动部分,如下所示:

3c2f0c2a1638ee2a3391e45a87611c9c.png

   第一部分是数据生产者,它可以是传感器、开源数据源或其他系统。接下来,数据发布者获取数据集,存储它,并使其在企业中可访问。消费者开发使用数据集的决策支持应用程序或分析程序,而决策者使用应用程序作出决策。还有一些其他情况,其中一个实体扮演不止一个角色。例如,生产者也可以发布,或者消费者也可以是决策者。

   对于我们在企业中共享数据的范围,在几乎所有的情况下,前三部分只会产生成本,收益只会由决策者产生。

3dd422d555af8e9062959439f1fa50b0.png

   我们将把重点放在发布者和消费者上。在许多情况下,决策者并不属于我们的权限范围,而决策制定者所执行的业务或任务流程也不属于我们的权限范围。我们会专注于我们能控制的事情。

db25987218d205b06072a4aa27d6d3cb.png

  在只有一个发布者和一个消费者的情况下,事情很容易管理。只有一条价值链。数据集可能需要重新格式化、清理或充实,但通常发布者和消费者可以就如何分配与使用数据集相关的成本达成一致。

   另一方面,当有多个消费者,每个消费者对数据集有不同的需求时,问题就变得更具挑战性。我们有消费者重复工作的可能,例如,如果每个消费者都必须删除数据集中的重复记录。或者,发布方可以与每个消费者协商单独的协议,以交付数据的自定义版本或不同的API,这将重复发布方的工作。这些由重复工作产生的成本将降低我们使用数据产生的价值。为了将这些成本降至最低,我们需要以更广阔的视角看待问题。

   4. 治理约束数据发布者帮助数据使用者

   治理分配责任并限制自由。在这种情况下,我们限制发布方以对所有消费者最有利的方式交付数据集。我们通过分析所有消费者的价值链来实现这一点,并在发布方和消费者之间分配职责以及成本,以最大化所有使用数据集所产生的总价值。

   治理在组织的企业架构中表现为标准、模式和策略,并作为组织的软件工程过程的一部分进行审查——例如,在阶段审查时。

治理需要权威——制定没有人遵循的规则只会带来成本,没有好处,因此会产生负的价值。

   对发布者进行应变可以降低发布者的成本,例如,通过减少接口类型、限制接口的向后兼容性要求或限制技术选项。然而,这些约束通常会增加发布者的成本,例如,通过要求模式转换、提高数据质量或更高的可用性。这些改进有助于消费者降低使用数据的成本。这些改进还减少了所有消费者的重复工作,从而增加了总价值。

   5. 只有在增加价值(收益大于成本)时才应用治理

   我们不需要管理企业中的每个数据集。事实上,如果企业在单个发布者和单个消费者之间基本上是一对一的交换,那么投资于数据治理可能不值得,因为成本将超过任何收益。

   6. 将治理集中在数据消费者想要的东西上

   治理约束发布者。我们应该为每个数据集调整这些约束。一个数据集可能需要大量的投资来提高数据质量,而另一个数据集可能只需要存储在Hadoop集群上。

   为了关注数据消费者想要什么,我们创建了一个由五部分组成的数据消费者关注框架来对他们的关注进行分类。框架类别提供了一个检查表,对于每个类别,我们提供了数据消费者为了有效使用数据集需要回答的一些典型问题。

5b365a132f24a841df248463447c87ff.png

   首先,消费者需要知道哪些数据可用,以及该数据集是否适合他们使用:

   •数据使用是否有限制?

   •数据集是否会在他们需要的时候一直可用?数据集需要通过这些测试才能进入下一个类别。

   第二类(数据集语义)关注的是完整数据集的含义:

   •它代表什么信息?

   •它是从哪里来的?

   •它是否依赖或补充其他数据集。

   第三类集中于数据集中每条记录的含义和结构。

   第四类涉及到对数据集的访问,例如它是否可到达,接口协议和API是什么,以及如何控制访问。

   最后,消费者关心的是服务质量。他们使用的数据集必须以与他们正在构建的应用程序的需求一致的可用性和性能交付。

   企业数据目录是一种机制,用于在企业中捕获和通信关于数据集的信息。数据目录是一个存储库,它包含关于企业中可用的数据集(即元数据)的信息。有实现元数据目录的商业产品;然而,目录的初始版本可以使用任何支持搜索或排序的轻量级技术来实现,例如wiki、SharePoint站点,甚至共享电子表格。如果您从一个轻量级的实现开始,您可以决定您需要什么特性和规模,并在需要时迁移到一个商业产品。

   我们建议您采用敏捷的方法来构建您的目录——考虑“最小可行产品”。从“存在性”和“适宜性”属性开始,并添加其他可能相关和有用的属性。对于每一种,都要平衡收益和成本。

   我们结合上面讨论的6个原则来创建轻量级数据治理的路线:

   步骤1:确定你的高收益决定。这些决策可能不频繁但影响很大,或者频率高但影响小,或者介于两者之间。

   步骤2:确定支持你的最高利益决策的数据集。

   步骤3:对于每一个数据集,确定生产者-消费者关系。如果是一对一的关系,那么可能很少或根本不需要治理。如果是一对多或多对多,那么治理可能会增加价值。

   步骤4:你应该给制作人施加哪些约束条件?消费者需要如何适应数据?使用上面描述的数据消费者关注框架来确定可能的治理操作。在每一点上,平衡成本和收益,保持价值为正。

   步骤5:对步骤1中确定的每个高效益决策重复步骤2、3和4。

  步骤6:定期检查高效益决策的变更列表,并使用数据集值来指导决策制定,引入或删除治理约束。

相关文章
|
数据采集 存储 SQL
证券机构数据治理实践,实现数据的“管、 治、用”
许多证券机构在推进数据治理的过程中,仍然存在数据治理驱动力不足、缺少数据治理体系规划、数据认责体系不完善、数据质量难提升等诸多问题,数据治理亟须快速提升。为充分发挥数据的资产价值,通过梳理证券期货行业监管大数据治理的需求与特殊性,对证券期货行业的大数据治理体系搭建,包括构建证券期货行业数据模型、搭建公共数据平台、建设数据服务体系以及构建组织保障体系等方面。
222 0
|
数据采集 存储 监控
谈谈从DAMA、DCMM和DGI三大数据治理框架详细了解数据战略规划的关键要素
当前,数据作为新的生产要素提到了关键位置,众多组织认为数据是重要的战略资产。
谈谈从DAMA、DCMM和DGI三大数据治理框架详细了解数据战略规划的关键要素
|
存储 数据采集 人工智能
数据治理,你需要知道的六件事
什么样的技术可以被认为是最有前途和最有商业价值的呢,人工智能、物联网和大数据?
数据治理,你需要知道的六件事
|
数据采集 存储 监控
谈谈医疗行业数据治理的四个关键阶段【后附医院数据治理案例】
数据是推动医疗行业的改进,驾驭不断变化的医疗行业环境的必要资源。它使医疗行业组织能够评估医疗的提供和支持方式、患者参与和教育的方式,以及支付者和提供者如何共同努力提高价值。
谈谈医疗行业数据治理的四个关键阶段【后附医院数据治理案例】
|
数据管理 数据安全/隐私保护
从公司治理看数据治理
通常来讲,数据治理是公司治理的重要内容之一,将保障如何确保数据满足业务部门需求并支持和授权管理的人员正确有效的执行他们自己的角色。
从公司治理看数据治理
|
数据挖掘 大数据
数据分析挖掘体系(by 数据小雄)
【写于2015年8月15日,原文地址:http://zhangzhengxiong.com/?id=13】 刚好今天周末,有空闲时间,于是就准备把工作室的官网拿来修改下,把工作室的业务范围进行了整理下,也就是:花了三个小时左右的时间,将数据分析挖掘方面的知识点进行了梳理。
138 0
数据分析挖掘体系(by 数据小雄)
|
大数据 物联网 数据挖掘
重点人员管控系统开发,智慧公安情报研判分析平台建设
重点人员管控系统利用物联网技术将身份、车牌、人脸、手机、指纹、声音等信息传输到平台上与公安数据进行匹配,从而实现重点人员管控,大数据深层挖掘和智能研判应用,达到对人员的全方位,立体式管控。
399 0
|
监控 大数据 数据管理
政法大数据人员管控系统开发,重点关注人员联防联控平台建设
政法大数据人员管控系统,是以政法委为统筹核心,横向打通公安、检察、法院、司法、监狱 等部门,纵向贯通中央、省、市、县、乡五个层级,综合运用现代科技成果,统一管控操作平台、统一执行标准、 统一协调联动、统一管理监督,实现对九类重点人员及流动人口进行全流程、全覆盖、全天候数字化管理。
290 0
|
数据采集 数据可视化 大数据
智慧公安重点人员管控系统开发,情报研判分析平台建设
重点人员管控系统开发围绕重点人员的人、车、电、网、像等相关多维度数据,通过不同的数据采集模型灵活刻画出重点人员全面数字画像,实现重点人员态势分析、智能预警、轨迹跟踪、处置追踪以及稽查布控等功能,配合公安机关的技战法和研判工具,达到公安机关管理控制重点人员活动的目的。
309 0
|
存储 数据可视化 Oracle
公安情报研判平台建设,大数据可视化系统开发方案
情报研判平台,首先在公安各警种情报工作需求之上建立统一的研判基础平台,提供研判信息资源整合和分析、研判、发布平台,通过统一的基础平台确保各警种研判信息来源的丰富和统一。
346 0