谈谈数据治理成熟度模型及大数据治理参考架构

简介: 数据是企业拥有的最大资产之一,但是数据也越来越难以管理和控制。干净、可信的数据能够为企业提供更好的服务,提高客户忠诚度,提高生产效率,提高决策能力。

数据是企业拥有的最大资产之一,但是数据也越来越难以管理和控制。干净、可信的数据能够为企业提供更好的服务,提高客户忠诚度,提高生产效率,提高决策能力。然而,数据也可以被认为是企业最大的风险来源。有效地利用信息,通过创造性地利用数据来优化人员和流程从而增加创新的能力。相反,糟糕的数据管理往往意味着糟糕的业务决策和结果,更容易受到违反法规和数据失窃的影响。

大数据给信息治理过程、工具和组织带来了更大的挑战。随着我们朝着低延迟决策和大量不受控制的外部数据的方向发展,它变得更加重要。在大数据环境中,需要提出几个关键的治理问题,包括在实时分析和实时决策,强调低延迟数据管理的情况下,如何进行数据治理。

一、数据治理能力成熟度模型

从结构化数据到非结构化数据,包括客户和员工数据、元数据、商业机密、电子邮件、视频和音频,组织必须找到一种方法,在不妨碍信息自由流动和创新的情况下,根据业务需求管理数据。能力成熟度模型(Capabilities Maturity ModelCMM)描述了一个框架和方法,用于度量数据治理的进度。这个结构化的元素集合提供了一个稳定的、可测量的进展到最终想要的成熟度状态。根据CMM,衡量数据治理进度的五个级别是:

成熟度级别1(初始):流程通常是临时的,环境不稳定。

成熟度级别2(重复):成功是可重复的,但流程可能不会对组织中的所有项目重复。

成熟度级别3(定义):组织的标准流程用于建立整个组织的一致性。

成熟度级别4(管理):组织为过程和维护设定定量质量目标。

成熟度级别5(优化):组织的定量过程改进目标被牢固地建立并不断地修改以反映不断变化的业务目标,并被用作管理过程改进的标准。

数据治理成熟度模型有助于企业和其他利益相关者如何使战略更有效。成熟度模型基于IBM数据治理委员会成员的输入。它定义了谁需要参与管理和度量企业在整个组织中管理数据的方式的范围。

数据治理成熟度模型基于以下11类数据治理成熟度来衡量数据治理的能力:

1、数据风险管理和合规性:识别、鉴定、量化、避免、接受、减轻或转出风险的方法。对公共基础设施的要求可能会有所不同;例如,与高可用性或灾难恢复相关的要求。这些领域的大数据技术也没有那么成熟。

2、价值创造:对数据资产进行限定和量化的过程,以使业务能够最大化由数据资产创造的价值。由于大数据处理的是大容量和高速度的数据,因此基础设施不能很容易地在筒仓中复制。跨组织部门的业务价值可以汇集在一起,以创建一个共同的基础设施,在不同的组织(如市场营销、生产管理和风险管理)之间共享。

3、组织结构和意识:业务和IT之间的相互责任水平,以及对跨部门管理数据的受托责任的认识。每个组织都可能带来不同程度的真实性的外部大数据源。由于这些数据源是为公共标识符和使用而收集和挖掘的,因此理解联邦统一非常重要,它为每个组织提供维护其环境的能力,同时保持与联邦定义的连接。

4、管理:质量控制规程,旨在确保数据的保管,以实现资产增强、风险缓解和组织控制。随着外部数据(如社交媒体)的访问,扩展管理角色以包括外部数据非常重要。管理还应该考虑隐私问题,特别是社交媒体和使用数据。

5、政策:组织行为的书面表达。通过使用治理、风险和法规遵从性(GRC)框架,大数据池和管理数据遵循这些策略。例如,有一个组织在其CRM环境中利用使用数据。该组织制定了一项政策,要求定期删除这些数据,以维护客户隐私。大数据治理程序可能会将匿名使用数据保留较长时间,但会删除与CRM的链接。

6、数据质量管理:测量、改进和证明生产、测试和存档数据的质量和完整性的方法。大数据带来了与动态数据和静态数据相关的数据质量问题。可以将数据挖掘与CRM和大数据源结合使用,以提高数据质量。例如,订户的帐单地址可能与其服务位置不同。使用CDR数据,可以更新服务位置并使用这些数据来提高服务质量。

7、信息生命周期管理(ILM):系统的、基于策略的信息收集、使用、保留和删除方法。目前可以轻松地用大容量大数据填充数PBHadoop存储空间。虽然成本低于传统的商业智能环境,但长期使用PB级存储的成本会增加。ILM策略基于卷预测、业务价值和成本。这些策略允许企业决定在哪里存储数据(在线用于分析,离线用于法规遵从性)、存储多少数据(聚合数据与原始数据的数量)以及何时开始删除数据(生活方式更改后可能无效的旧使用模式)。

8、信息安全和隐私:组织用来降低风险和保护数据资产的策略、实践和控制。维度包括策略的定义和执行。这是大数据最重要的治理维度。尽管私有和敏感数据应该受到小心保护,但发现和存储私有和敏感数据的可能性仍然存在。在某些情况下,订阅者同意在特定用例中使用私有数据。在这些情况下,数据不应在获得选择性加入的有限用例之外提供。与人口数据(如姓名、电话号码和信用卡信息)相比,根据使用信息,推断的行为数据(工作地点、好友列表和外出时间)可能是私有的,或者在某些情况下是更私有的。

9、数据体系结构:结构化和非结构化数据系统和应用程序的体系结构设计,使数据可用性和分发给适当的用户。在一个典型的组织中,必须保留过去在商业智能方面的大量投资。这导致了一种混合的体系结构,其中事务和统计数据可能会保留在传统的商业智能环境中,并且可以添加大数据体系结构来连接和使用数据。在这些混合情况下,组织的ETL、主/引用数据和元数据的共享非常重要。对于高速数据和信息,必须设计数据体系结构以满足延迟要求。

10、分类和元数据:用于为业务和IT术语、数据模型和存储库创建通用语义定义的方法和工具。通用业务词汇表、数据沿袭和物理数据表示是传统数据和大数据之间元数据集成的示例。这是一个不断发展的领域,大数据带来了新的挑战(例如,记录级数据沿袭与字段级数据沿袭)和新的机遇(使用本体来理解外部数据)。

11、审计信息记录和报告:用于监视和测量数据价值、风险和数据治理有效性的组织过程。如果没有适当的审核,大数据解决方案就有可能执行不好定义良好的策略。跨部门不一致地执行隐私策略可能会导致失败点。心怀不满的内部人士可以利用这些故障点,窃取客户数据和见解。

9eb49927545d7722aeee241f384ab477.png

1数据治理成熟度模型

下图显示了对全球信息服务提供商的数据治理的度量。我们并不总是测量所有的数据治理维度。例如,在图2中,11个维度中有8个被认为是重要的,并包含在评估中。对于每个测量维度,计算当前和目标到期日。这提供了使用数据治理程序来完成的差距的度量。

951f0777a7269889e77d635f41c4888a.jpg

2数据治理成熟度-当前和目标

 

二、大数据和治理挑战

大数据解决方案正在应对许多数据治理挑战。源数据来自需要治理的内部和外部源:

 (1)  数据质量与匹配;

 (2)  主数据索引;

 (3)  数据隐私的识别与保护。

对所有来源的数据进行治理可能是一项挑战。然而,如果数据不受控制,下游将面临重大挑战。下游挑战是:

1、读取时的治理:当数据由外部源高速生成时,在数据摄取期间应用治理是一项挑战。因此,这些数据包含了相当数量的非政府数据。然后在使用数据时应用治理。不幸的是,这种方法可能会导致混合来自企业数据仓库(EDW)和其他受管源的非受管数据和高度受管数据。要在使用前识别和管理数据,即使使用是为了数据发现和搜索目的。数据科学家通常认为,由于数据量大,数据质量问题无关紧要。但在需要发现和定义微观探查时可能不是这样。

2、湖中匹配:如果大数据来自不同的系统,它通常会携带不匹配的数据。不匹配的数据不会链接到公共标识。随着数据的增长,匹配数据所需的工作也会随之增加。通常,数据具有不同的数据源延迟级别,这使得在数据摄取期间进行关联具有挑战性。另一种方法是在湖中倾倒不匹配的数据,希望能在湖中匹配。然而,当匹配在离源较近的地方进行时,匹配的成本会降低。

3、用于分析的数据相关性:大数据可以包含许多属性,这些属性经常在许多观察中重复。类似地,外部数据源(如社交媒体)可能承载的数据比洞察开发所需的数据还要多。如果将整个原始数据集移动到数据池中,即使对于廉价的Hadoop存储,其大小也会迅速增长。对于一家电信公司来说,网络使用探测器产生的数据接近每秒数千千兆位的情况并不少见。如果存储一周,这些数据可能会爆炸成千兆字节。在这种情况下,长时间存储原始数据是不可取的。保存分析所需的数据,并丢弃或存档其余数据。

4、隐私:隐私政策通常通过使用个人识别信息(PII)来定义客户隐私。然而,可以从其他数据中推断出相当数量的私人信息。以位置为例(在某个纬度和经度上存在一个设备)。根据地理位置,原始数据可能被视为个人信用卡和社会保障数据。访问和使用此类数据需要明确的客户许可。

5、记录直到矛盾:随着时间的推移,大多数数据都会变得陈旧。在美国,每年约有三分之一的客户更换住所。这会影响他们在特定地点的闲逛和兴趣。使用与过去洞察相矛盾的新数据来建立变化的证据。分析系统应该能够根据经过的时间和相互矛盾的证据,对过去的见解赋予不同的权重。

 

三、数据湖驱动发现中的数据转换与质量

数据湖是包含大量原始格式数据的大型存储库。会话和使用数据在存储库或数据湖中累积,并进行分析,以获得有关用户的有用信息。例如,对产品和服务的行为和态度可以被发现。

大多数使用数据是结构化的。例如,来自网络的CDR数据是结构化数据的一个很好的示例。然而,CDR数据可能来自不同的网络源,每个网络源都有自己的格式。要分析此数据,请首先统一数据,以便发现或预测引擎可以以相同的方式查看所有数据。可能有丢失的数据,或者某些数据是以更长的延迟检索的。此外,对数据进行校正以消除噪声。

为每个实体提取的特征具有不同的寿命。所提取的某些特征是短暂的,因为它们与将要发生的事件相关,或者只在有限的时间段内有效。一个例子是用户很快采取的行动,例如去看电影、购买产品或吃饭。这些行为通常在社交媒体上共享,随着时间的推移,它们的有效性有限。

性别、年龄、婚姻状况和种族是具有长期价值的数据特征的例子。其中一些特征很难推断或提取。如果用户没有明确说明,年龄是一个开放的研究问题,因为很难仅根据语言特征推断。对这些特征的预测和推断还应包含预测者或所提取特征的置信水平的度量。在治理方面,添加变量度量的置信级别。

社交数据本质上是非结构化的,而且这些存储库中的大多数都对外部操作开放。例如:

 (1)  外部因素:垃圾邮件、宣传、链接滥用;

 (2)  内部因素:不准确、自我报告、格式问题。

有多种方法可以提高包含在数据湖中的数据的质量。评估和提高数据质量有几种方法,它们分为两种基本方法:

    (1)  以社区为基础;

    (2)  机器监督方法。

基于社区的方法在过去被证明是成功的,但是它们依赖于一个活跃的社区来管理其中包含的数据。维基百科和雅虎解答是大型社区管理数据的好例子。

在某些情况下,可以使用自动方法检测可能的质量问题,纠正问题,然后自动提高数据源的质量。这方面的一个例子是,多个自动代理检查新的维基百科文章以发现可能的垃圾邮件,多个代理检测机器人在FacebookTwitter上的发布。

其他影响社交媒体数据质量的常见问题包括讽刺、新词(新造词)、缩写、俚语等。通常,特定于领域的本体用于解析数据以理解和翻译这些词,并跟上趋势和其他变化。

 

四、大数据治理技术架构

企业大数据的治理至关重要,下图显示了大数据治理体系结构的四个部分:

    (1)  数据源管理:包括所有原始数据、着陆区、发现区和协调区。使用平面文件、Hadoopcolumnar或关系数据存储来存储数据;

    (2)  信息结构:提供治理的策略和设计以及组织数据的工具。治理的主要存储库是信息治理目录。

    (3) 安全性:通过使用信息结构中设置的策略来执行安全性。它使用标准的安全工具,如LDAPKerberosHTTPS、证书等。

    (4)  分析、报告和消费:提供大数据治理监控情况的分析。

3c017dd327438c1a8b88280c62c8cfaf.jpg

3 面向大数据的治理体系技术架

 

五、综述

对于企业来说,数据的价值就是获得洞察力并做出正确的决策。管理企业数据的治理至关重要,如果没有数据治理,很难发挥大数据的价值。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7天前
|
缓存 监控 数据格式
信息系统架构模型(2) SOA
信息系统架构模型(2) SOA
17 0
|
18天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
46 2
|
1月前
|
机器学习/深度学习 自然语言处理 并行计算
大模型开发:什么是Transformer架构及其重要性?
Transformer模型革新了NLP,以其高效的并行计算和自注意力机制解决了长距离依赖问题。从机器翻译到各种NLP任务,Transformer展现出卓越性能,其编码器-解码器结构结合自注意力层和前馈网络,实现高效训练。此架构已成为领域内重要里程碑。
35 2
|
1月前
|
存储 SQL 关系型数据库
ClickHouse(02)ClickHouse架构设计介绍概述与ClickHouse数据分片设计
ClickHouse的核心架构包括执行过程和数据存储两部分。执行过程涉及Parser与Interpreter解析SQL,通过Column、DataType、Block、Functions和Storage模块处理数据。Column是内存中列的表示,Field处理单个值,DataType负责序列化和反序列化,Block是内存中表的子集,Block Streams处理数据流。Storage代表表,使用不同的引擎如StorageMergeTree。数据存储基于分片和副本,1个分片由多个副本组成,每个节点只能拥有1个分片。
86 0
ClickHouse(02)ClickHouse架构设计介绍概述与ClickHouse数据分片设计
|
2月前
|
存储 数据可视化 数据管理
基于阿里云服务的数据平台架构实践
本文主要介绍基于阿里云大数据组件服务,对企业进行大数据平台建设的架构实践。
733 2
|
7天前
|
前端开发 Java PHP
信息系统架构模型(1) MVC
信息系统架构模型(1) MVC
13 0
|
8天前
|
网络架构
经典神经网络架构参考 v1.0(2)
经典神经网络架构参考 v1.0
13 0
|
13天前
|
负载均衡 Java 开发者
细解微服务架构实践:如何使用Spring Cloud进行Java微服务治理
【4月更文挑战第17天】Spring Cloud是Java微服务治理的首选框架,整合了Eureka(服务发现)、Ribbon(客户端负载均衡)、Hystrix(熔断器)、Zuul(API网关)和Config Server(配置中心)。通过Eureka实现服务注册与发现,Ribbon提供负载均衡,Hystrix实现熔断保护,Zuul作为API网关,Config Server集中管理配置。理解并运用Spring Cloud进行微服务治理是现代Java开发者的关键技能。
|
1月前
|
机器学习/深度学习 分布式计算 监控
大模型开发:你如何使用大数据进行模型训练?
在大数据模型训练中,关键步骤包括数据准备(收集、清洗、特征工程、划分),硬件准备(分布式计算、并行训练),模型选择与配置,训练与优化,监控评估,以及模型的持久化与部署。过程中要关注数据隐私、安全及法规遵循,利用技术进步提升效率和性能。
66 2
|
1月前
|
监控 Cloud Native 云计算
构建未来:云原生架构下的微服务治理
【2月更文挑战第30天】随着云计算的不断演进,云原生技术逐渐占据了软件开发与运维的核心地位。本文深入探讨了在云原生生态系统中,如何有效管理和治理微服务,确保系统的高可用性、可扩展性和安全性。通过对容器化技术、服务网格、以及微服务框架的剖析,我们展示了在云平台上构建和管理微服务的先进策略和实践。

热门文章

最新文章