关于数据治理需要知道的六件事

简介: 许多组织希望在整个企业中共享数据集,但如何迈出第一步可能很困难。这些挑战包括从纯技术问题(如数据格式和API)到组织文化(管理者拒绝共享他们认为自己拥有的数据)。

    许多组织希望在整个企业中共享数据集,但如何迈出第一步可能很困难。这些挑战包括从纯技术问题(如数据格式和API)到组织文化(管理者拒绝共享他们认为自己拥有的数据)。数据治理是一组允许数据在企业中创造价值的实践。在启动数据治理计划时,许多组织选择应用最佳实践,例如在数据管理协会的知识体系(DAMA-BOK)中收集的那些实践。虽然这些实践定义了一个理想的最终状态,但经验是,试图在整个企业广泛地应用它们作为第一步可能是破坏性的、昂贵的,并且交付价值的速度很慢。在我与多个行业和政府组织的合作中,开发了一种增量式的方法来启动数据治理,可以很快获得回报。这篇文章强调了这种的方法,它基于六个原则。

   1. 数据集只有在用于决策时才会产生效益

   如果我们应用最佳实践,例如,清理数据集、发布其模式、分配数据管理员和开放API上的层,但没有人使用数据集,那么我们没有产生任何直接好处。决策和行动产生效益,除非我们使用数据集来支持决策,否则它只是招致成本。(“准备就绪”的数据集具有选择价值,但这不应该是您最初的数据治理重点)。

   2. 价值='收益-成本‘

   数据集的价值是它产生的收益(即数据集支持的决策的收益)减去使用数据集的成本之和。显然,我们希望这个值是正的。

   3.数据有一个价值链

   一个数据集的价值链有四个活动部分,如下所示:

3c2f0c2a1638ee2a3391e45a87611c9c.png

   第一部分是数据生产者,它可以是传感器、开源数据源或其他系统。接下来,数据发布者获取数据集,存储它,并使其在企业中可访问。消费者开发使用数据集的决策支持应用程序或分析程序,而决策者使用应用程序作出决策。还有一些其他情况,其中一个实体扮演不止一个角色。例如,生产者也可以发布,或者消费者也可以是决策者。

   对于我们在企业中共享数据的范围,在几乎所有的情况下,前三部分只会产生成本,收益只会由决策者产生。

3dd422d555af8e9062959439f1fa50b0.png

   我们将把重点放在发布者和消费者上。在许多情况下,决策者并不属于我们的权限范围,而决策制定者所执行的业务或任务流程也不属于我们的权限范围。我们会专注于我们能控制的事情。

db25987218d205b06072a4aa27d6d3cb.png

  在只有一个发布者和一个消费者的情况下,事情很容易管理。只有一条价值链。数据集可能需要重新格式化、清理或充实,但通常发布者和消费者可以就如何分配与使用数据集相关的成本达成一致。

   另一方面,当有多个消费者,每个消费者对数据集有不同的需求时,问题就变得更具挑战性。我们有消费者重复工作的可能,例如,如果每个消费者都必须删除数据集中的重复记录。或者,发布方可以与每个消费者协商单独的协议,以交付数据的自定义版本或不同的API,这将重复发布方的工作。这些由重复工作产生的成本将降低我们使用数据产生的价值。为了将这些成本降至最低,我们需要以更广阔的视角看待问题。

   4. 治理约束数据发布者帮助数据使用者

   治理分配责任并限制自由。在这种情况下,我们限制发布方以对所有消费者最有利的方式交付数据集。我们通过分析所有消费者的价值链来实现这一点,并在发布方和消费者之间分配职责以及成本,以最大化所有使用数据集所产生的总价值。

   治理在组织的企业架构中表现为标准、模式和策略,并作为组织的软件工程过程的一部分进行审查——例如,在阶段审查时。

治理需要权威——制定没有人遵循的规则只会带来成本,没有好处,因此会产生负的价值。

   对发布者进行应变可以降低发布者的成本,例如,通过减少接口类型、限制接口的向后兼容性要求或限制技术选项。然而,这些约束通常会增加发布者的成本,例如,通过要求模式转换、提高数据质量或更高的可用性。这些改进有助于消费者降低使用数据的成本。这些改进还减少了所有消费者的重复工作,从而增加了总价值。

   5. 只有在增加价值(收益大于成本)时才应用治理

   我们不需要管理企业中的每个数据集。事实上,如果企业在单个发布者和单个消费者之间基本上是一对一的交换,那么投资于数据治理可能不值得,因为成本将超过任何收益。

   6. 将治理集中在数据消费者想要的东西上

   治理约束发布者。我们应该为每个数据集调整这些约束。一个数据集可能需要大量的投资来提高数据质量,而另一个数据集可能只需要存储在Hadoop集群上。

   为了关注数据消费者想要什么,我们创建了一个由五部分组成的数据消费者关注框架来对他们的关注进行分类。框架类别提供了一个检查表,对于每个类别,我们提供了数据消费者为了有效使用数据集需要回答的一些典型问题。

5b365a132f24a841df248463447c87ff.png

   首先,消费者需要知道哪些数据可用,以及该数据集是否适合他们使用:

   •数据使用是否有限制?

   •数据集是否会在他们需要的时候一直可用?数据集需要通过这些测试才能进入下一个类别。

   第二类(数据集语义)关注的是完整数据集的含义:

   •它代表什么信息?

   •它是从哪里来的?

   •它是否依赖或补充其他数据集。

   第三类集中于数据集中每条记录的含义和结构。

   第四类涉及到对数据集的访问,例如它是否可到达,接口协议和API是什么,以及如何控制访问。

   最后,消费者关心的是服务质量。他们使用的数据集必须以与他们正在构建的应用程序的需求一致的可用性和性能交付。

   企业数据目录是一种机制,用于在企业中捕获和通信关于数据集的信息。数据目录是一个存储库,它包含关于企业中可用的数据集(即元数据)的信息。有实现元数据目录的商业产品;然而,目录的初始版本可以使用任何支持搜索或排序的轻量级技术来实现,例如wiki、SharePoint站点,甚至共享电子表格。如果您从一个轻量级的实现开始,您可以决定您需要什么特性和规模,并在需要时迁移到一个商业产品。

   我们建议您采用敏捷的方法来构建您的目录——考虑“最小可行产品”。从“存在性”和“适宜性”属性开始,并添加其他可能相关和有用的属性。对于每一种,都要平衡收益和成本。

   我们结合上面讨论的6个原则来创建轻量级数据治理的路线:

   步骤1:确定你的高收益决定。这些决策可能不频繁但影响很大,或者频率高但影响小,或者介于两者之间。

   步骤2:确定支持你的最高利益决策的数据集。

   步骤3:对于每一个数据集,确定生产者-消费者关系。如果是一对一的关系,那么可能很少或根本不需要治理。如果是一对多或多对多,那么治理可能会增加价值。

   步骤4:你应该给制作人施加哪些约束条件?消费者需要如何适应数据?使用上面描述的数据消费者关注框架来确定可能的治理操作。在每一点上,平衡成本和收益,保持价值为正。

   步骤5:对步骤1中确定的每个高效益决策重复步骤2、3和4。

  步骤6:定期检查高效益决策的变更列表,并使用数据集值来指导决策制定,引入或删除治理约束。

相关文章
|
2月前
|
数据采集 监控 安全
CDGA|数据治理:安全如何贯穿数据供给、流通、使用全过程
随着信息技术的飞速发展,数据已经成为企业运营、社会管理和经济发展的核心要素。然而,数据在带来巨大价值的同时,也伴随着诸多安全风险。因此,数据治理的重要性日益凸显,它不仅仅是对数据的简单管理,更是确保数据在供给、流通和使用全过程中安全、合规、高效的关键。
|
2月前
|
数据采集 数据安全/隐私保护
​ CDGA|电子行业数据治理六大痛点及突围之道
电子行业在数据治理方面面临着诸多痛点。为了突围而出,企业需要针对这些痛点制定有效的解决方案和措施,包括统一数据标准、打破数据孤岛、保障数据安全、制定合理策略、培养及建立高效团队以及引进先进技术等方面。通过这些努力,企业可以不断提升数据治理的能力和水平,为业务发展提供有力支撑。
|
2月前
|
机器学习/深度学习 数据采集 存储
CDGA|创新数据治理工具:推动数据治理标准规范化之路
创新数据治理工具在推进数据治理标准规范化方面发挥着重要作用。企业应积极采用这些工具,并制定相应的策略和规范,以确保数据的有效管理和利用。同时,企业还应关注数据治理的最新发展和趋势,不断提升数据治理的能力和水平。
|
数据采集 监控 数据挖掘
如何打造数据治理闭环?以金融行业为例 by彭文华
如何打造数据治理闭环?以金融行业为例 by彭文华
|
7月前
|
存储 SQL 分布式计算
数据治理手稿
数据治理手稿
|
7月前
|
数据采集 监控 搜索推荐
附方法论|数禾科技X瓴羊:3000字干货分享数据资产建设实践
附方法论|数禾科技X瓴羊:3000字干货分享数据资产建设实践
120 0
|
数据采集 人工智能 自然语言处理
基金公司数据治理实践,打造“点线面体”的数据治理体系
在数字经济时代下,数据驱动业务创新发展已经成为企业的主要选择,基金行业机构也在积极推进数字化转型,但机遇与挑战并存。数据要转化为数据要素,需要系统体系化的数据能力建设作为催化剂。 基金行业也表现出一定的痛点,其中表现为数据安全保护不够到位,缺少数据脉络,数据质量得不到保障等。同时由于行业内在进行系统建设时,对数据管理工作的重要性认识不足以及长年累月杂乱数据的堆积,导致数据治理工作推进艰难,致使在营销端、分析端、监管报送端长期存在客户重复,资产异常等情况。 在公司“十四五”数字化发展规划的指导下,基金公司坚持统筹推进、聚焦痛点,强化数据能力建设,在完善数据治理体系、搭建大数据技术、提升数据服务能
391 0
|
数据采集 存储 SQL
证券机构数据治理实践,实现数据的“管、 治、用”
许多证券机构在推进数据治理的过程中,仍然存在数据治理驱动力不足、缺少数据治理体系规划、数据认责体系不完善、数据质量难提升等诸多问题,数据治理亟须快速提升。为充分发挥数据的资产价值,通过梳理证券期货行业监管大数据治理的需求与特殊性,对证券期货行业的大数据治理体系搭建,包括构建证券期货行业数据模型、搭建公共数据平台、建设数据服务体系以及构建组织保障体系等方面。
255 0
|
存储 数据采集 人工智能
数据治理,你需要知道的六件事
什么样的技术可以被认为是最有前途和最有商业价值的呢,人工智能、物联网和大数据?
数据治理,你需要知道的六件事
|
数据采集 存储 监控
谈谈医疗行业数据治理的四个关键阶段【后附医院数据治理案例】
数据是推动医疗行业的改进,驾驭不断变化的医疗行业环境的必要资源。它使医疗行业组织能够评估医疗的提供和支持方式、患者参与和教育的方式,以及支付者和提供者如何共同努力提高价值。
谈谈医疗行业数据治理的四个关键阶段【后附医院数据治理案例】