许多组织希望在整个企业中共享数据集,但如何迈出第一步可能很困难。这些挑战包括从纯技术问题(如数据格式和API)到组织文化(管理者拒绝共享他们认为自己拥有的数据)。数据治理是一组允许数据在企业中创造价值的实践。在启动数据治理计划时,许多组织选择应用最佳实践,例如在数据管理协会的知识体系(DAMA-BOK)中收集的那些实践。虽然这些实践定义了一个理想的最终状态,但经验是,试图在整个企业广泛地应用它们作为第一步可能是破坏性的、昂贵的,并且交付价值的速度很慢。在我与多个行业和政府组织的合作中,开发了一种增量式的方法来启动数据治理,可以很快获得回报。这篇文章强调了这种的方法,它基于六个原则。
1. 数据集只有在用于决策时才会产生效益
如果我们应用最佳实践,例如,清理数据集、发布其模式、分配数据管理员和开放API上的层,但没有人使用数据集,那么我们没有产生任何直接好处。决策和行动产生效益,除非我们使用数据集来支持决策,否则它只是招致成本。(“准备就绪”的数据集具有选择价值,但这不应该是您最初的数据治理重点)。
2. 价值='收益-成本‘
数据集的价值是它产生的收益(即数据集支持的决策的收益)减去使用数据集的成本之和。显然,我们希望这个值是正的。
3.数据有一个价值链
一个数据集的价值链有四个活动部分,如下所示:
第一部分是数据生产者,它可以是传感器、开源数据源或其他系统。接下来,数据发布者获取数据集,存储它,并使其在企业中可访问。消费者开发使用数据集的决策支持应用程序或分析程序,而决策者使用应用程序作出决策。还有一些其他情况,其中一个实体扮演不止一个角色。例如,生产者也可以发布,或者消费者也可以是决策者。
对于我们在企业中共享数据的范围,在几乎所有的情况下,前三部分只会产生成本,收益只会由决策者产生。
我们将把重点放在发布者和消费者上。在许多情况下,决策者并不属于我们的权限范围,而决策制定者所执行的业务或任务流程也不属于我们的权限范围。我们会专注于我们能控制的事情。
在只有一个发布者和一个消费者的情况下,事情很容易管理。只有一条价值链。数据集可能需要重新格式化、清理或充实,但通常发布者和消费者可以就如何分配与使用数据集相关的成本达成一致。
另一方面,当有多个消费者,每个消费者对数据集有不同的需求时,问题就变得更具挑战性。我们有消费者重复工作的可能,例如,如果每个消费者都必须删除数据集中的重复记录。或者,发布方可以与每个消费者协商单独的协议,以交付数据的自定义版本或不同的API,这将重复发布方的工作。这些由重复工作产生的成本将降低我们使用数据产生的价值。为了将这些成本降至最低,我们需要以更广阔的视角看待问题。
4. 治理约束数据发布者帮助数据使用者
治理分配责任并限制自由。在这种情况下,我们限制发布方以对所有消费者最有利的方式交付数据集。我们通过分析所有消费者的价值链来实现这一点,并在发布方和消费者之间分配职责以及成本,以最大化所有使用数据集所产生的总价值。
治理在组织的企业架构中表现为标准、模式和策略,并作为组织的软件工程过程的一部分进行审查——例如,在阶段审查时。
治理需要权威——制定没有人遵循的规则只会带来成本,没有好处,因此会产生负的价值。
对发布者进行应变可以降低发布者的成本,例如,通过减少接口类型、限制接口的向后兼容性要求或限制技术选项。然而,这些约束通常会增加发布者的成本,例如,通过要求模式转换、提高数据质量或更高的可用性。这些改进有助于消费者降低使用数据的成本。这些改进还减少了所有消费者的重复工作,从而增加了总价值。
5. 只有在增加价值(收益大于成本)时才应用治理
我们不需要管理企业中的每个数据集。事实上,如果企业在单个发布者和单个消费者之间基本上是一对一的交换,那么投资于数据治理可能不值得,因为成本将超过任何收益。
6. 将治理集中在数据消费者想要的东西上
治理约束发布者。我们应该为每个数据集调整这些约束。一个数据集可能需要大量的投资来提高数据质量,而另一个数据集可能只需要存储在Hadoop集群上。
为了关注数据消费者想要什么,我们创建了一个由五部分组成的数据消费者关注框架来对他们的关注进行分类。框架类别提供了一个检查表,对于每个类别,我们提供了数据消费者为了有效使用数据集需要回答的一些典型问题。
首先,消费者需要知道哪些数据可用,以及该数据集是否适合他们使用:
•数据使用是否有限制?
•数据集是否会在他们需要的时候一直可用?数据集需要通过这些测试才能进入下一个类别。
第二类(数据集语义)关注的是完整数据集的含义:
•它代表什么信息?
•它是从哪里来的?
•它是否依赖或补充其他数据集。
第三类集中于数据集中每条记录的含义和结构。
第四类涉及到对数据集的访问,例如它是否可到达,接口协议和API是什么,以及如何控制访问。
最后,消费者关心的是服务质量。他们使用的数据集必须以与他们正在构建的应用程序的需求一致的可用性和性能交付。
企业数据目录是一种机制,用于在企业中捕获和通信关于数据集的信息。数据目录是一个存储库,它包含关于企业中可用的数据集(即元数据)的信息。有实现元数据目录的商业产品;然而,目录的初始版本可以使用任何支持搜索或排序的轻量级技术来实现,例如wiki、SharePoint站点,甚至共享电子表格。如果您从一个轻量级的实现开始,您可以决定您需要什么特性和规模,并在需要时迁移到一个商业产品。
我们建议您采用敏捷的方法来构建您的目录——考虑“最小可行产品”。从“存在性”和“适宜性”属性开始,并添加其他可能相关和有用的属性。对于每一种,都要平衡收益和成本。
我们结合上面讨论的6个原则来创建轻量级数据治理的路线:
步骤1:确定你的高收益决定。这些决策可能不频繁但影响很大,或者频率高但影响小,或者介于两者之间。
步骤2:确定支持你的最高利益决策的数据集。
步骤3:对于每一个数据集,确定生产者-消费者关系。如果是一对一的关系,那么可能很少或根本不需要治理。如果是一对多或多对多,那么治理可能会增加价值。
步骤4:你应该给制作人施加哪些约束条件?消费者需要如何适应数据?使用上面描述的数据消费者关注框架来确定可能的治理操作。在每一点上,平衡成本和收益,保持价值为正。
步骤5:对步骤1中确定的每个高效益决策重复步骤2、3和4。
步骤6:定期检查高效益决策的变更列表,并使用数据集值来指导决策制定,引入或删除治理约束。