数据是企业拥有的最大资产之一,但是数据也越来越难以管理和控制。干净、可信的数据能够为企业提供更好的服务,提高客户忠诚度,提高生产效率,提高决策能力。然而,数据也可以被认为是企业最大的风险来源。有效地利用信息,通过创造性地利用数据来优化人员和流程从而增加创新的能力。相反,糟糕的数据管理往往意味着糟糕的业务决策和结果,更容易受到违反法规和数据失窃的影响。
大数据给信息治理过程、工具和组织带来了更大的挑战。随着我们朝着低延迟决策和大量不受控制的外部数据的方向发展,它变得更加重要。在大数据环境中,需要提出几个关键的治理问题,包括在实时分析和实时决策,强调低延迟数据管理的情况下,如何进行数据治理。
一、数据治理能力成熟度模型
从结构化数据到非结构化数据,包括客户和员工数据、元数据、商业机密、电子邮件、视频和音频,组织必须找到一种方法,在不妨碍信息自由流动和创新的情况下,根据业务需求管理数据。能力成熟度模型(Capabilities Maturity Model,CMM)描述了一个框架和方法,用于度量数据治理的进度。这个结构化的元素集合提供了一个稳定的、可测量的进展到最终想要的成熟度状态。根据CMM,衡量数据治理进度的五个级别是:
成熟度级别1(初始):流程通常是临时的,环境不稳定。
成熟度级别2(重复):成功是可重复的,但流程可能不会对组织中的所有项目重复。
成熟度级别3(定义):组织的标准流程用于建立整个组织的一致性。
成熟度级别4(管理):组织为过程和维护设定定量质量目标。
成熟度级别5(优化):组织的定量过程改进目标被牢固地建立并不断地修改以反映不断变化的业务目标,并被用作管理过程改进的标准。
数据治理成熟度模型有助于企业和其他利益相关者如何使战略更有效。成熟度模型基于IBM数据治理委员会成员的输入。它定义了谁需要参与管理和度量企业在整个组织中管理数据的方式的范围。
数据治理成熟度模型基于以下11类数据治理成熟度来衡量数据治理的能力:
1、数据风险管理和合规性:识别、鉴定、量化、避免、接受、减轻或转出风险的方法。对公共基础设施的要求可能会有所不同;例如,与高可用性或灾难恢复相关的要求。这些领域的大数据技术也没有那么成熟。
2、价值创造:对数据资产进行限定和量化的过程,以使业务能够最大化由数据资产创造的价值。由于大数据处理的是大容量和高速度的数据,因此基础设施不能很容易地在筒仓中复制。跨组织部门的业务价值可以汇集在一起,以创建一个共同的基础设施,在不同的组织(如市场营销、生产管理和风险管理)之间共享。
3、组织结构和意识:业务和IT之间的相互责任水平,以及对跨部门管理数据的受托责任的认识。每个组织都可能带来不同程度的真实性的外部大数据源。由于这些数据源是为公共标识符和使用而收集和挖掘的,因此理解联邦统一非常重要,它为每个组织提供维护其环境的能力,同时保持与联邦定义的连接。
4、管理:质量控制规程,旨在确保数据的保管,以实现资产增强、风险缓解和组织控制。随着外部数据(如社交媒体)的访问,扩展管理角色以包括外部数据非常重要。管理还应该考虑隐私问题,特别是社交媒体和使用数据。
5、政策:组织行为的书面表达。通过使用治理、风险和法规遵从性(GRC)框架,大数据池和管理数据遵循这些策略。例如,有一个组织在其CRM环境中利用使用数据。该组织制定了一项政策,要求定期删除这些数据,以维护客户隐私。大数据治理程序可能会将匿名使用数据保留较长时间,但会删除与CRM的链接。
6、数据质量管理:测量、改进和证明生产、测试和存档数据的质量和完整性的方法。大数据带来了与动态数据和静态数据相关的数据质量问题。可以将数据挖掘与CRM和大数据源结合使用,以提高数据质量。例如,订户的帐单地址可能与其服务位置不同。使用CDR数据,可以更新服务位置并使用这些数据来提高服务质量。
7、信息生命周期管理(ILM):系统的、基于策略的信息收集、使用、保留和删除方法。目前可以轻松地用大容量大数据填充数PB的Hadoop存储空间。虽然成本低于传统的商业智能环境,但长期使用PB级存储的成本会增加。ILM策略基于卷预测、业务价值和成本。这些策略允许企业决定在哪里存储数据(在线用于分析,离线用于法规遵从性)、存储多少数据(聚合数据与原始数据的数量)以及何时开始删除数据(生活方式更改后可能无效的旧使用模式)。
8、信息安全和隐私:组织用来降低风险和保护数据资产的策略、实践和控制。维度包括策略的定义和执行。这是大数据最重要的治理维度。尽管私有和敏感数据应该受到小心保护,但发现和存储私有和敏感数据的可能性仍然存在。在某些情况下,订阅者同意在特定用例中使用私有数据。在这些情况下,数据不应在获得选择性加入的有限用例之外提供。与人口数据(如姓名、电话号码和信用卡信息)相比,根据使用信息,推断的行为数据(工作地点、好友列表和外出时间)可能是私有的,或者在某些情况下是更私有的。
9、数据体系结构:结构化和非结构化数据系统和应用程序的体系结构设计,使数据可用性和分发给适当的用户。在一个典型的组织中,必须保留过去在商业智能方面的大量投资。这导致了一种混合的体系结构,其中事务和统计数据可能会保留在传统的商业智能环境中,并且可以添加大数据体系结构来连接和使用数据。在这些混合情况下,组织的ETL、主/引用数据和元数据的共享非常重要。对于高速数据和信息,必须设计数据体系结构以满足延迟要求。
10、分类和元数据:用于为业务和IT术语、数据模型和存储库创建通用语义定义的方法和工具。通用业务词汇表、数据沿袭和物理数据表示是传统数据和大数据之间元数据集成的示例。这是一个不断发展的领域,大数据带来了新的挑战(例如,记录级数据沿袭与字段级数据沿袭)和新的机遇(使用本体来理解外部数据)。
11、审计信息记录和报告:用于监视和测量数据价值、风险和数据治理有效性的组织过程。如果没有适当的审核,大数据解决方案就有可能执行不好定义良好的策略。跨部门不一致地执行隐私策略可能会导致失败点。心怀不满的内部人士可以利用这些故障点,窃取客户数据和见解。
图1数据治理成熟度模型
下图显示了对全球信息服务提供商的数据治理的度量。我们并不总是测量所有的数据治理维度。例如,在图2中,11个维度中有8个被认为是重要的,并包含在评估中。对于每个测量维度,计算当前和目标到期日。这提供了使用数据治理程序来完成的差距的度量。
图2数据治理成熟度-当前和目标
二、大数据和治理挑战
大数据解决方案正在应对许多数据治理挑战。源数据来自需要治理的内部和外部源:
(1) 数据质量与匹配;
(2) 主数据索引;
(3) 数据隐私的识别与保护。
对所有来源的数据进行治理可能是一项挑战。然而,如果数据不受控制,下游将面临重大挑战。下游挑战是:
1、读取时的治理:当数据由外部源高速生成时,在数据摄取期间应用治理是一项挑战。因此,这些数据包含了相当数量的非政府数据。然后在使用数据时应用治理。不幸的是,这种方法可能会导致混合来自企业数据仓库(EDW)和其他受管源的非受管数据和高度受管数据。要在使用前识别和管理数据,即使使用是为了数据发现和搜索目的。数据科学家通常认为,由于数据量大,数据质量问题无关紧要。但在需要发现和定义微观探查时可能不是这样。
2、湖中匹配:如果大数据来自不同的系统,它通常会携带不匹配的数据。不匹配的数据不会链接到公共标识。随着数据的增长,匹配数据所需的工作也会随之增加。通常,数据具有不同的数据源延迟级别,这使得在数据摄取期间进行关联具有挑战性。另一种方法是在湖中倾倒不匹配的数据,希望能在湖中匹配。然而,当匹配在离源较近的地方进行时,匹配的成本会降低。
3、用于分析的数据相关性:大数据可以包含许多属性,这些属性经常在许多观察中重复。类似地,外部数据源(如社交媒体)可能承载的数据比洞察开发所需的数据还要多。如果将整个原始数据集移动到数据池中,即使对于廉价的Hadoop存储,其大小也会迅速增长。对于一家电信公司来说,网络使用探测器产生的数据接近每秒数千千兆位的情况并不少见。如果存储一周,这些数据可能会爆炸成千兆字节。在这种情况下,长时间存储原始数据是不可取的。保存分析所需的数据,并丢弃或存档其余数据。
4、隐私:隐私政策通常通过使用个人识别信息(PII)来定义客户隐私。然而,可以从其他数据中推断出相当数量的私人信息。以位置为例(在某个纬度和经度上存在一个设备)。根据地理位置,原始数据可能被视为个人信用卡和社会保障数据。访问和使用此类数据需要明确的客户许可。
5、记录直到矛盾:随着时间的推移,大多数数据都会变得陈旧。在美国,每年约有三分之一的客户更换住所。这会影响他们在特定地点的闲逛和兴趣。使用与过去洞察相矛盾的新数据来建立变化的证据。分析系统应该能够根据经过的时间和相互矛盾的证据,对过去的见解赋予不同的权重。
三、数据湖驱动发现中的数据转换与质量
数据湖是包含大量原始格式数据的大型存储库。会话和使用数据在存储库或数据湖中累积,并进行分析,以获得有关用户的有用信息。例如,对产品和服务的行为和态度可以被发现。
大多数使用数据是结构化的。例如,来自网络的CDR数据是结构化数据的一个很好的示例。然而,CDR数据可能来自不同的网络源,每个网络源都有自己的格式。要分析此数据,请首先统一数据,以便发现或预测引擎可以以相同的方式查看所有数据。可能有丢失的数据,或者某些数据是以更长的延迟检索的。此外,对数据进行校正以消除噪声。
为每个实体提取的特征具有不同的寿命。所提取的某些特征是短暂的,因为它们与将要发生的事件相关,或者只在有限的时间段内有效。一个例子是用户很快采取的行动,例如去看电影、购买产品或吃饭。这些行为通常在社交媒体上共享,随着时间的推移,它们的有效性有限。
性别、年龄、婚姻状况和种族是具有长期价值的数据特征的例子。其中一些特征很难推断或提取。如果用户没有明确说明,年龄是一个开放的研究问题,因为很难仅根据语言特征推断。对这些特征的预测和推断还应包含预测者或所提取特征的置信水平的度量。在治理方面,添加变量度量的置信级别。
社交数据本质上是非结构化的,而且这些存储库中的大多数都对外部操作开放。例如:
(1) 外部因素:垃圾邮件、宣传、链接滥用;
(2) 内部因素:不准确、自我报告、格式问题。
有多种方法可以提高包含在数据湖中的数据的质量。评估和提高数据质量有几种方法,它们分为两种基本方法:
(1) 以社区为基础;
(2) 机器监督方法。
基于社区的方法在过去被证明是成功的,但是它们依赖于一个活跃的社区来管理其中包含的数据。维基百科和雅虎解答是大型社区管理数据的好例子。
在某些情况下,可以使用自动方法检测可能的质量问题,纠正问题,然后自动提高数据源的质量。这方面的一个例子是,多个自动代理检查新的维基百科文章以发现可能的垃圾邮件,多个代理检测机器人在Facebook和Twitter上的发布。
其他影响社交媒体数据质量的常见问题包括讽刺、新词(新造词)、缩写、俚语等。通常,特定于领域的本体用于解析数据以理解和翻译这些词,并跟上趋势和其他变化。
四、大数据治理技术架构
企业大数据的治理至关重要,下图显示了大数据治理体系结构的四个部分:
(1) 数据源管理:包括所有原始数据、着陆区、发现区和协调区。使用平面文件、Hadoop、columnar或关系数据存储来存储数据;
(2) 信息结构:提供治理的策略和设计以及组织数据的工具。治理的主要存储库是信息治理目录。
(3) 安全性:通过使用信息结构中设置的策略来执行安全性。它使用标准的安全工具,如LDAP、Kerberos、HTTPS、证书等。
(4) 分析、报告和消费:提供大数据治理监控情况的分析。
图3 面向大数据的治理体系技术架构
五、综述
对于企业来说,数据的价值就是获得洞察力并做出正确的决策。管理企业数据的治理至关重要,如果没有数据治理,很难发挥大数据的价值。