谈谈数据虚拟化在数据湖中的作用

简介: 当组织向“所有用户”开放数据湖时,这会给数据湖及其支持基础设施增加相当大的复杂性。

    当组织向“所有用户”开放数据湖时,这会给数据湖及其支持基础设施增加相当大的复杂性。当来自不同部门的多个用户访问数据时,公司需要数据治理、安全性和可靠的方法来帮助这些不同的个人方便地找到他们需要的数据。这些都是数据湖架构师经常遇到的重要挑战。数据湖项目可能因为缺乏治理、安全性和易访问性导致失败,而这些都是所有用户从数据湖中受益所必需的。

   目前,关于大数据和与数据虚拟化有关的数据湖的概念被大量谈论。然而,对于什么是数据湖,有多种不同的定义,从Hadoop上的集中数据存储到逻辑数据湖,包括云存储、Hadoop或多个Hadoop集群、数据仓库、NoSQL数据存储、主数据管理(MDM)、参考数据管理(RDM)和企业内容管理系统等。

   创建一个由单个物理数据存储(如Hadoop Distributed File System, HDFS)组成的集中数据湖要比管理一个逻辑数据湖容易得多,但是对于我的大多数客户来说,他们都在尝试管理一个逻辑数据湖,如果您可以管理这个,那当然也可以管理一个集中的物理数据湖。下图显示了数据虚拟化的逻辑数据湖。

9aebbd3f276930eefd8c67f35db094fd.png  

那么,数据虚拟化在数据湖中究竟扮演着什么角色呢?显而易见的答案是简化跨多个数据存储的访问。

   对于数据科学家来说,数据湖的商业价值没有任何讨论的必要。每个人都知道,将所有数据集中到一个地方可以让数据科学家更容易、更快速地获取数据。研究表明,数据科学家花费80%的时间准备数据。其中很大一部分时间都浪费在了收集分析所需的数据上。数据湖减少了这种时间浪费,并使数据科学家能够更快地开始他们真正的工作:数据分析。

   但数据湖必须是物理数据湖吗?根据数据湖最初的定义,答案是肯定的。数据科学家需要的数据从原始数据源复制到物理数据湖。James Serna对数据湖的定义清楚地反映了这一点:“数据湖是一个存储库,通常在Hadoop中,它以原生格式保存着大量的原始数据,直到需要它为止。”

   将所有数据物理地复制和移动到一个集中的环境中会导致一系列不可克服的问题和挑战:

   •大数据可能太大而无法移动,存储两次成本太高

   •公司政策可能禁止将部门或部门拥有的数据复制到集中式环境中

   •数据隐私和保护条例可能禁止将特定类型的数据存储在一起

   •数据湖中的数据被存储在原来的安全领域之外

   •描述数据的元数据通常不会随数据一起复制,因此数据科学家无法获得

   •一些数据源,比如旧的大型机数据库,可能很难复制并保持其原始格式

   •需要对数据湖进行技术和组织管理

   数据科学家需要快速和方便地访问他们需要的所有数据,但是解决方案必须基于一个集中的物理环境吗?将其与BI环境的业务用户进行比较。他们要求的不是数据仓库或数据集市,而是报表和仪表板,这些报表和仪表板以一种有助于他们做出决策的形式显示数据。数据仓库或数据集市只是实现或解决方案。这同样适用于数据湖。数据湖不是数据科学家想要的,他们想要的是方便快捷的数据访问。数据湖只是一个可能的解决方案。

   满足数据科学家需求的另一种更实用的解决方案是逻辑数据湖;一个系统假装所有数据都存储在一个集中式环境中,但实际上它可以将数据保留在原始源中。逻辑数据湖的目标是让数据科学家能够方便快速地获取数据,它隐藏了数据的物理存储位置以及是否被复制。

逻辑数据湖可以通过数据虚拟化服务器开发,比如Denodo平台可以将异构数据源集表示为一个逻辑数据库。

   开发一个逻辑数据湖并不意味着当数据科学家运行他们的查询时总是访问原始数据源。也就是说复制原始数据并不是提供数据用于分析的默认方法。只有在技术或组织原因要求必须创建副本时才使用复制。如果复制成功,数据虚拟化服务器将在其控制下进行复制。因此,如果复制和物理存储数据两次是物理数据湖的默认方法,那么对于逻辑数据湖则是可选的。这使得逻辑数据湖更容易处理上述问题和挑战,同时保持了数据科学家访问数据的便利性。

   总而言之,逻辑数据湖提供了两个方面的最佳选择,即在需要时访问数据而无需复制,在需要时访问复制的数据。物理数据湖只提供了第二种选择。逻辑数据湖的目标是为数据科学家提供方便快捷的数据访问,而不是创建一个庞大而复杂的数据存储环境。

   在我看来,这不仅仅是简化访问。出于这个原因,我想更详细地讨论数据湖并深入研究可以使用数据虚拟化技术的领域。下图显示了如何将数据湖组织成区域。根据企业拥有的是集中式还是分布式逻辑数据湖,管理这些区域的方式可能会有所不同。比较好的方法是通过标记,这样就可以将数据“标记”为处于某个区域。

ff455e66631f3509d0f7c067b112270e.png  

关键问题是,数据虚拟化在这些区域中的作用是什么?让我们来看一看。如你所见,我们有以下区域:

   •数据摄取区

   •原始数据区

   •可信的数据区

   •数据准备区

   •精炼的数据和洞察力区域

   •市场数据

   通过这些区域,将从左到右进行逻辑处理。下图显示了可以在哪些地方使用数据虚拟化来提高敏捷性和减少特定区域的数据复制。

a19bc81bfa2eec64a912d94d5fd3f4e3.png

   在数据摄入区域内,可以对一些结构化的已理解的数据源进行虚拟化以简化来自多个数据源的摄入,并将被摄入的数据限制在感兴趣的数据上。这意味着在摄入区域内可能存在一些虚拟摄入数据。如果数据由于法律原因无法移动(例如GDPR),这可能特别有用。

   原始数据区是被批准接收的数据,这些数据已经被合格的数据专家“签署”,以便在企业内部使用,这些数据专家能够理解在数据自动发现、分析和编目之后被接收的原始数据。因此,原始数据区域可能同时具有物理数据集和虚拟数据集。

   数据虚拟化还可以在可信数据区发挥作用,在可信数据区中,已清理和集成的主数据、参考数据和历史事务活动数据存储在MDM系统、RDM系统、数据仓库和归档数据仓库数据存储中。在这里,可能存在受信任的主数据、引用数据或历史数据仓库数据的多个虚拟视图。也可能有原始数据的虚拟视图。这里的目标不是为数据科学家设置障碍,而是让他们更容易访问数据,并加快自助数据准备,以便输入数据科学项目中正在开发的分析模型。它还可以用于保护受信任数据区或原始数据区中的敏感数据,并监督数据科学家可以看到什么,不能看到什么。因此,这其中既有治理因素,也有提高生产率因素,可以证明为什么数据虚拟化会产生影响。

   在数据精炼区,可以处理和集成来自虚拟和物理数据集的数据,以提供数据仓库所需的数据,并提供输入属性数据,以训练预测模型,例如使用有监督的机器学习。精炼数据的输出是可信的、准备好的和集成的数据和/或见解,这也可能是精炼数据区中虚拟数据集和物理数据集的混合。此时,在将数据发布到数据市场(信息目录上的一个区域)以供企业中的其他业务用户和应用程序查找、消费和使用之前,需要将数据映射到常见的业务数据名称的通用业务词汇表中。

   数据虚拟化还可以用于数据湖的最后一个地方,那就是数据市场。如果人们在数据市场上找到并看到他们需要的可信数据,那么危险就在于他们都想下载这些数据。换句话说,他们想把一切都“拉到边缘”。对于许多公司来说,出于各种各样的原因这是他们最不希望发生的事情。首先,如果数据现在是可信的和受治理的,那么为什么要在整个企业中将数据集发送到再次失去对数据集的跟踪并且无法对其进行治理的地方呢?另外,如何阻止人们创建导致违反法规遵从性的数据副本?答案不是将数据作为一种实际服务来提供,而是将数据作为一种虚拟服务来提供,从而防止“失控副本”的发生,防止未经授权的访问数据,以及防止数据在不被允许的情况下被带出司法管辖区而导致的违规行为。

   数据虚拟化在数据湖中的作用是非常重要的。它提高了敏捷性和自助服务的生产力,它还引入了治理,防止受信任数据的治理失控。

相关文章
|
存储 数据库 虚拟化
《数据虚拟化:商务智能系统的数据架构与管理》一 导读
遗憾的是,数据虚拟化和数据仓库领域中使用的所有术语并非都是明确定义的,这一点在本书中讲得很清楚。为了避免混淆,我们试图清晰地定义大多数术语。但是,我们不能保证本书中的定义与你的定义一致。
1655 0
|
存储 虚拟化
《数据虚拟化:商务智能系统的数据架构与管理》一 2.11 总结
本节书摘来自华章出版社《数据虚拟化:商务智能系统的数据架构与管理》一 书中的第2章,第2.11节,作者:[荷]里克 F. 范德兰斯(Rick F. van der Lans),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1065 0
|
存储 数据采集 数据库
《数据虚拟化:商务智能系统的数据架构与管理》一 2.10 传统商务智能系统的劣势
本节书摘来自华章出版社《数据虚拟化:商务智能系统的数据架构与管理》一 书中的第2章,第2.10节,作者:[荷]里克 F. 范德兰斯(Rick F. van der Lans),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1171 0
|
存储 虚拟化
《数据虚拟化:商务智能系统的数据架构与管理》一 2.9 报告和分析的新形式
本节书摘来自华章出版社《数据虚拟化:商务智能系统的数据架构与管理》一 书中的第2章,第2.9节,作者:[荷]里克 F. 范德兰斯(Rick F. van der Lans),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
979 0
|
虚拟化
《数据虚拟化:商务智能系统的数据架构与管理》一 2.8 商务智能架构总览
本节书摘来自华章出版社《数据虚拟化:商务智能系统的数据架构与管理》一 书中的第2章,第2.8节,作者:[荷]里克 F. 范德兰斯(Rick F. van der Lans),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1279 0
|
存储 监控 数据库
《数据虚拟化:商务智能系统的数据架构与管理》一 2.7 提取-转换-装载、提取-装载-转换和复制
本节书摘来自华章出版社《数据虚拟化:商务智能系统的数据架构与管理》一 书中的第2章,第2.7节,作者:[荷]里克 F. 范德兰斯(Rick F. van der Lans),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1407 0
|
存储 数据库 虚拟化
《数据虚拟化:商务智能系统的数据架构与管理》一 2.6 标准化模式、星形模式和雪花模式
本节书摘来自华章出版社《数据虚拟化:商务智能系统的数据架构与管理》一 书中的第2章,第2.6节,作者:[荷]里克 F. 范德兰斯(Rick F. van der Lans),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1189 0
|
存储 BI 数据库
《数据虚拟化:商务智能系统的数据架构与管理》一 2.5 商务智能系统的数据存储
本节书摘来自华章出版社《数据虚拟化:商务智能系统的数据架构与管理》一 书中的第2章,第2.5节,作者:[荷]里克 F. 范德兰斯(Rick F. van der Lans),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1514 0
|
BI 虚拟化
《数据虚拟化:商务智能系统的数据架构与管理》一 2.4 商务智能系统
本节书摘来自华章出版社《数据虚拟化:商务智能系统的数据架构与管理》一 书中的第2章,第2.4节,作者:[荷]里克 F. 范德兰斯(Rick F. van der Lans),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1126 0
|
虚拟化
《数据虚拟化:商务智能系统的数据架构与管理》一 2.3 管理层次与决策制定
本节书摘来自华章出版社《数据虚拟化:商务智能系统的数据架构与管理》一 书中的第2章,第2.3节,作者:[荷]里克 F. 范德兰斯(Rick F. van der Lans),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
960 0