谈谈数据治理成熟度模型及大数据治理参考架构

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 数据是企业拥有的最大资产之一,但是数据也越来越难以管理和控制。干净、可信的数据能够为企业提供更好的服务,提高客户忠诚度,提高生产效率,提高决策能力。

数据是企业拥有的最大资产之一,但是数据也越来越难以管理和控制。干净、可信的数据能够为企业提供更好的服务,提高客户忠诚度,提高生产效率,提高决策能力。然而,数据也可以被认为是企业最大的风险来源。有效地利用信息,通过创造性地利用数据来优化人员和流程从而增加创新的能力。相反,糟糕的数据管理往往意味着糟糕的业务决策和结果,更容易受到违反法规和数据失窃的影响。

大数据给信息治理过程、工具和组织带来了更大的挑战。随着我们朝着低延迟决策和大量不受控制的外部数据的方向发展,它变得更加重要。在大数据环境中,需要提出几个关键的治理问题,包括在实时分析和实时决策,强调低延迟数据管理的情况下,如何进行数据治理。

一、数据治理能力成熟度模型

从结构化数据到非结构化数据,包括客户和员工数据、元数据、商业机密、电子邮件、视频和音频,组织必须找到一种方法,在不妨碍信息自由流动和创新的情况下,根据业务需求管理数据。能力成熟度模型(Capabilities Maturity ModelCMM)描述了一个框架和方法,用于度量数据治理的进度。这个结构化的元素集合提供了一个稳定的、可测量的进展到最终想要的成熟度状态。根据CMM,衡量数据治理进度的五个级别是:

成熟度级别1(初始):流程通常是临时的,环境不稳定。

成熟度级别2(重复):成功是可重复的,但流程可能不会对组织中的所有项目重复。

成熟度级别3(定义):组织的标准流程用于建立整个组织的一致性。

成熟度级别4(管理):组织为过程和维护设定定量质量目标。

成熟度级别5(优化):组织的定量过程改进目标被牢固地建立并不断地修改以反映不断变化的业务目标,并被用作管理过程改进的标准。

数据治理成熟度模型有助于企业和其他利益相关者如何使战略更有效。成熟度模型基于IBM数据治理委员会成员的输入。它定义了谁需要参与管理和度量企业在整个组织中管理数据的方式的范围。

数据治理成熟度模型基于以下11类数据治理成熟度来衡量数据治理的能力:

1、数据风险管理和合规性:识别、鉴定、量化、避免、接受、减轻或转出风险的方法。对公共基础设施的要求可能会有所不同;例如,与高可用性或灾难恢复相关的要求。这些领域的大数据技术也没有那么成熟。

2、价值创造:对数据资产进行限定和量化的过程,以使业务能够最大化由数据资产创造的价值。由于大数据处理的是大容量和高速度的数据,因此基础设施不能很容易地在筒仓中复制。跨组织部门的业务价值可以汇集在一起,以创建一个共同的基础设施,在不同的组织(如市场营销、生产管理和风险管理)之间共享。

3、组织结构和意识:业务和IT之间的相互责任水平,以及对跨部门管理数据的受托责任的认识。每个组织都可能带来不同程度的真实性的外部大数据源。由于这些数据源是为公共标识符和使用而收集和挖掘的,因此理解联邦统一非常重要,它为每个组织提供维护其环境的能力,同时保持与联邦定义的连接。

4、管理:质量控制规程,旨在确保数据的保管,以实现资产增强、风险缓解和组织控制。随着外部数据(如社交媒体)的访问,扩展管理角色以包括外部数据非常重要。管理还应该考虑隐私问题,特别是社交媒体和使用数据。

5、政策:组织行为的书面表达。通过使用治理、风险和法规遵从性(GRC)框架,大数据池和管理数据遵循这些策略。例如,有一个组织在其CRM环境中利用使用数据。该组织制定了一项政策,要求定期删除这些数据,以维护客户隐私。大数据治理程序可能会将匿名使用数据保留较长时间,但会删除与CRM的链接。

6、数据质量管理:测量、改进和证明生产、测试和存档数据的质量和完整性的方法。大数据带来了与动态数据和静态数据相关的数据质量问题。可以将数据挖掘与CRM和大数据源结合使用,以提高数据质量。例如,订户的帐单地址可能与其服务位置不同。使用CDR数据,可以更新服务位置并使用这些数据来提高服务质量。

7、信息生命周期管理(ILM):系统的、基于策略的信息收集、使用、保留和删除方法。目前可以轻松地用大容量大数据填充数PBHadoop存储空间。虽然成本低于传统的商业智能环境,但长期使用PB级存储的成本会增加。ILM策略基于卷预测、业务价值和成本。这些策略允许企业决定在哪里存储数据(在线用于分析,离线用于法规遵从性)、存储多少数据(聚合数据与原始数据的数量)以及何时开始删除数据(生活方式更改后可能无效的旧使用模式)。

8、信息安全和隐私:组织用来降低风险和保护数据资产的策略、实践和控制。维度包括策略的定义和执行。这是大数据最重要的治理维度。尽管私有和敏感数据应该受到小心保护,但发现和存储私有和敏感数据的可能性仍然存在。在某些情况下,订阅者同意在特定用例中使用私有数据。在这些情况下,数据不应在获得选择性加入的有限用例之外提供。与人口数据(如姓名、电话号码和信用卡信息)相比,根据使用信息,推断的行为数据(工作地点、好友列表和外出时间)可能是私有的,或者在某些情况下是更私有的。

9、数据体系结构:结构化和非结构化数据系统和应用程序的体系结构设计,使数据可用性和分发给适当的用户。在一个典型的组织中,必须保留过去在商业智能方面的大量投资。这导致了一种混合的体系结构,其中事务和统计数据可能会保留在传统的商业智能环境中,并且可以添加大数据体系结构来连接和使用数据。在这些混合情况下,组织的ETL、主/引用数据和元数据的共享非常重要。对于高速数据和信息,必须设计数据体系结构以满足延迟要求。

10、分类和元数据:用于为业务和IT术语、数据模型和存储库创建通用语义定义的方法和工具。通用业务词汇表、数据沿袭和物理数据表示是传统数据和大数据之间元数据集成的示例。这是一个不断发展的领域,大数据带来了新的挑战(例如,记录级数据沿袭与字段级数据沿袭)和新的机遇(使用本体来理解外部数据)。

11、审计信息记录和报告:用于监视和测量数据价值、风险和数据治理有效性的组织过程。如果没有适当的审核,大数据解决方案就有可能执行不好定义良好的策略。跨部门不一致地执行隐私策略可能会导致失败点。心怀不满的内部人士可以利用这些故障点,窃取客户数据和见解。

9eb49927545d7722aeee241f384ab477.png

1数据治理成熟度模型

下图显示了对全球信息服务提供商的数据治理的度量。我们并不总是测量所有的数据治理维度。例如,在图2中,11个维度中有8个被认为是重要的,并包含在评估中。对于每个测量维度,计算当前和目标到期日。这提供了使用数据治理程序来完成的差距的度量。

951f0777a7269889e77d635f41c4888a.jpg

2数据治理成熟度-当前和目标

 

二、大数据和治理挑战

大数据解决方案正在应对许多数据治理挑战。源数据来自需要治理的内部和外部源:

 (1)  数据质量与匹配;

 (2)  主数据索引;

 (3)  数据隐私的识别与保护。

对所有来源的数据进行治理可能是一项挑战。然而,如果数据不受控制,下游将面临重大挑战。下游挑战是:

1、读取时的治理:当数据由外部源高速生成时,在数据摄取期间应用治理是一项挑战。因此,这些数据包含了相当数量的非政府数据。然后在使用数据时应用治理。不幸的是,这种方法可能会导致混合来自企业数据仓库(EDW)和其他受管源的非受管数据和高度受管数据。要在使用前识别和管理数据,即使使用是为了数据发现和搜索目的。数据科学家通常认为,由于数据量大,数据质量问题无关紧要。但在需要发现和定义微观探查时可能不是这样。

2、湖中匹配:如果大数据来自不同的系统,它通常会携带不匹配的数据。不匹配的数据不会链接到公共标识。随着数据的增长,匹配数据所需的工作也会随之增加。通常,数据具有不同的数据源延迟级别,这使得在数据摄取期间进行关联具有挑战性。另一种方法是在湖中倾倒不匹配的数据,希望能在湖中匹配。然而,当匹配在离源较近的地方进行时,匹配的成本会降低。

3、用于分析的数据相关性:大数据可以包含许多属性,这些属性经常在许多观察中重复。类似地,外部数据源(如社交媒体)可能承载的数据比洞察开发所需的数据还要多。如果将整个原始数据集移动到数据池中,即使对于廉价的Hadoop存储,其大小也会迅速增长。对于一家电信公司来说,网络使用探测器产生的数据接近每秒数千千兆位的情况并不少见。如果存储一周,这些数据可能会爆炸成千兆字节。在这种情况下,长时间存储原始数据是不可取的。保存分析所需的数据,并丢弃或存档其余数据。

4、隐私:隐私政策通常通过使用个人识别信息(PII)来定义客户隐私。然而,可以从其他数据中推断出相当数量的私人信息。以位置为例(在某个纬度和经度上存在一个设备)。根据地理位置,原始数据可能被视为个人信用卡和社会保障数据。访问和使用此类数据需要明确的客户许可。

5、记录直到矛盾:随着时间的推移,大多数数据都会变得陈旧。在美国,每年约有三分之一的客户更换住所。这会影响他们在特定地点的闲逛和兴趣。使用与过去洞察相矛盾的新数据来建立变化的证据。分析系统应该能够根据经过的时间和相互矛盾的证据,对过去的见解赋予不同的权重。

 

三、数据湖驱动发现中的数据转换与质量

数据湖是包含大量原始格式数据的大型存储库。会话和使用数据在存储库或数据湖中累积,并进行分析,以获得有关用户的有用信息。例如,对产品和服务的行为和态度可以被发现。

大多数使用数据是结构化的。例如,来自网络的CDR数据是结构化数据的一个很好的示例。然而,CDR数据可能来自不同的网络源,每个网络源都有自己的格式。要分析此数据,请首先统一数据,以便发现或预测引擎可以以相同的方式查看所有数据。可能有丢失的数据,或者某些数据是以更长的延迟检索的。此外,对数据进行校正以消除噪声。

为每个实体提取的特征具有不同的寿命。所提取的某些特征是短暂的,因为它们与将要发生的事件相关,或者只在有限的时间段内有效。一个例子是用户很快采取的行动,例如去看电影、购买产品或吃饭。这些行为通常在社交媒体上共享,随着时间的推移,它们的有效性有限。

性别、年龄、婚姻状况和种族是具有长期价值的数据特征的例子。其中一些特征很难推断或提取。如果用户没有明确说明,年龄是一个开放的研究问题,因为很难仅根据语言特征推断。对这些特征的预测和推断还应包含预测者或所提取特征的置信水平的度量。在治理方面,添加变量度量的置信级别。

社交数据本质上是非结构化的,而且这些存储库中的大多数都对外部操作开放。例如:

 (1)  外部因素:垃圾邮件、宣传、链接滥用;

 (2)  内部因素:不准确、自我报告、格式问题。

有多种方法可以提高包含在数据湖中的数据的质量。评估和提高数据质量有几种方法,它们分为两种基本方法:

    (1)  以社区为基础;

    (2)  机器监督方法。

基于社区的方法在过去被证明是成功的,但是它们依赖于一个活跃的社区来管理其中包含的数据。维基百科和雅虎解答是大型社区管理数据的好例子。

在某些情况下,可以使用自动方法检测可能的质量问题,纠正问题,然后自动提高数据源的质量。这方面的一个例子是,多个自动代理检查新的维基百科文章以发现可能的垃圾邮件,多个代理检测机器人在FacebookTwitter上的发布。

其他影响社交媒体数据质量的常见问题包括讽刺、新词(新造词)、缩写、俚语等。通常,特定于领域的本体用于解析数据以理解和翻译这些词,并跟上趋势和其他变化。

 

四、大数据治理技术架构

企业大数据的治理至关重要,下图显示了大数据治理体系结构的四个部分:

    (1)  数据源管理:包括所有原始数据、着陆区、发现区和协调区。使用平面文件、Hadoopcolumnar或关系数据存储来存储数据;

    (2)  信息结构:提供治理的策略和设计以及组织数据的工具。治理的主要存储库是信息治理目录。

    (3) 安全性:通过使用信息结构中设置的策略来执行安全性。它使用标准的安全工具,如LDAPKerberosHTTPS、证书等。

    (4)  分析、报告和消费:提供大数据治理监控情况的分析。

3c017dd327438c1a8b88280c62c8cfaf.jpg

3 面向大数据的治理体系技术架

 

五、综述

对于企业来说,数据的价值就是获得洞察力并做出正确的决策。管理企业数据的治理至关重要,如果没有数据治理,很难发挥大数据的价值。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
51 7
|
6天前
|
数据采集 搜索推荐 数据管理
数据架构 CDP 是什么?
数据架构 CDP 是什么?
21 2
|
19天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
64 1
|
10天前
|
大数据
【赵渝强老师】大数据主从架构的单点故障
大数据体系架构中,核心组件采用主从架构,存在单点故障问题。为提高系统可用性,需实现高可用(HA)架构,通常借助ZooKeeper来实现。ZooKeeper提供配置维护、分布式同步等功能,确保集群稳定运行。下图展示了基于ZooKeeper的HDFS HA架构。
|
1月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
92 1
|
1月前
|
存储 分布式计算 大数据
大数据-169 Elasticsearch 索引使用 与 架构概念 增删改查
大数据-169 Elasticsearch 索引使用 与 架构概念 增删改查
57 3
|
10天前
|
SQL 数据采集 分布式计算
【赵渝强老师】基于大数据组件的平台架构
本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层:数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中,大数据平台层为核心,负责数据的存储和计算,支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型,应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。
【赵渝强老师】基于大数据组件的平台架构
|
18天前
|
数据采集 分布式计算 大数据
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第27天】在数字化时代,数据治理对于确保数据资产的保值增值至关重要。本文探讨了大数据平台的搭建和数据质量管理的重要性及实践方法。大数据平台应包括数据存储、处理、分析和展示等功能,常用工具如Hadoop、Apache Spark和Flink。数据质量管理则涉及数据的准确性、一致性和完整性,通过建立数据质量评估和监控体系,确保数据分析结果的可靠性。企业应设立数据治理委员会,投资相关工具和技术,提升数据治理的效率和效果。
49 2
|
19天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
1月前
|
存储 SQL 分布式计算
湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
【10月更文挑战第7天】湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
72 1

热门文章

最新文章