谈谈数据虚拟化在数据湖中的作用

简介: 当组织向“所有用户”开放数据湖时,这会给数据湖及其支持基础设施增加相当大的复杂性。

    当组织向“所有用户”开放数据湖时,这会给数据湖及其支持基础设施增加相当大的复杂性。当来自不同部门的多个用户访问数据时,公司需要数据治理、安全性和可靠的方法来帮助这些不同的个人方便地找到他们需要的数据。这些都是数据湖架构师经常遇到的重要挑战。数据湖项目可能因为缺乏治理、安全性和易访问性导致失败,而这些都是所有用户从数据湖中受益所必需的。

   目前,关于大数据和与数据虚拟化有关的数据湖的概念被大量谈论。然而,对于什么是数据湖,有多种不同的定义,从Hadoop上的集中数据存储到逻辑数据湖,包括云存储、Hadoop或多个Hadoop集群、数据仓库、NoSQL数据存储、主数据管理(MDM)、参考数据管理(RDM)和企业内容管理系统等。

   创建一个由单个物理数据存储(如Hadoop Distributed File System, HDFS)组成的集中数据湖要比管理一个逻辑数据湖容易得多,但是对于我的大多数客户来说,他们都在尝试管理一个逻辑数据湖,如果您可以管理这个,那当然也可以管理一个集中的物理数据湖。下图显示了数据虚拟化的逻辑数据湖。

9aebbd3f276930eefd8c67f35db094fd.png  

那么,数据虚拟化在数据湖中究竟扮演着什么角色呢?显而易见的答案是简化跨多个数据存储的访问。

   对于数据科学家来说,数据湖的商业价值没有任何讨论的必要。每个人都知道,将所有数据集中到一个地方可以让数据科学家更容易、更快速地获取数据。研究表明,数据科学家花费80%的时间准备数据。其中很大一部分时间都浪费在了收集分析所需的数据上。数据湖减少了这种时间浪费,并使数据科学家能够更快地开始他们真正的工作:数据分析。

   但数据湖必须是物理数据湖吗?根据数据湖最初的定义,答案是肯定的。数据科学家需要的数据从原始数据源复制到物理数据湖。James Serna对数据湖的定义清楚地反映了这一点:“数据湖是一个存储库,通常在Hadoop中,它以原生格式保存着大量的原始数据,直到需要它为止。”

   将所有数据物理地复制和移动到一个集中的环境中会导致一系列不可克服的问题和挑战:

   •大数据可能太大而无法移动,存储两次成本太高

   •公司政策可能禁止将部门或部门拥有的数据复制到集中式环境中

   •数据隐私和保护条例可能禁止将特定类型的数据存储在一起

   •数据湖中的数据被存储在原来的安全领域之外

   •描述数据的元数据通常不会随数据一起复制,因此数据科学家无法获得

   •一些数据源,比如旧的大型机数据库,可能很难复制并保持其原始格式

   •需要对数据湖进行技术和组织管理

   数据科学家需要快速和方便地访问他们需要的所有数据,但是解决方案必须基于一个集中的物理环境吗?将其与BI环境的业务用户进行比较。他们要求的不是数据仓库或数据集市,而是报表和仪表板,这些报表和仪表板以一种有助于他们做出决策的形式显示数据。数据仓库或数据集市只是实现或解决方案。这同样适用于数据湖。数据湖不是数据科学家想要的,他们想要的是方便快捷的数据访问。数据湖只是一个可能的解决方案。

   满足数据科学家需求的另一种更实用的解决方案是逻辑数据湖;一个系统假装所有数据都存储在一个集中式环境中,但实际上它可以将数据保留在原始源中。逻辑数据湖的目标是让数据科学家能够方便快速地获取数据,它隐藏了数据的物理存储位置以及是否被复制。

逻辑数据湖可以通过数据虚拟化服务器开发,比如Denodo平台可以将异构数据源集表示为一个逻辑数据库。

   开发一个逻辑数据湖并不意味着当数据科学家运行他们的查询时总是访问原始数据源。也就是说复制原始数据并不是提供数据用于分析的默认方法。只有在技术或组织原因要求必须创建副本时才使用复制。如果复制成功,数据虚拟化服务器将在其控制下进行复制。因此,如果复制和物理存储数据两次是物理数据湖的默认方法,那么对于逻辑数据湖则是可选的。这使得逻辑数据湖更容易处理上述问题和挑战,同时保持了数据科学家访问数据的便利性。

   总而言之,逻辑数据湖提供了两个方面的最佳选择,即在需要时访问数据而无需复制,在需要时访问复制的数据。物理数据湖只提供了第二种选择。逻辑数据湖的目标是为数据科学家提供方便快捷的数据访问,而不是创建一个庞大而复杂的数据存储环境。

   在我看来,这不仅仅是简化访问。出于这个原因,我想更详细地讨论数据湖并深入研究可以使用数据虚拟化技术的领域。下图显示了如何将数据湖组织成区域。根据企业拥有的是集中式还是分布式逻辑数据湖,管理这些区域的方式可能会有所不同。比较好的方法是通过标记,这样就可以将数据“标记”为处于某个区域。

ff455e66631f3509d0f7c067b112270e.png  

关键问题是,数据虚拟化在这些区域中的作用是什么?让我们来看一看。如你所见,我们有以下区域:

   •数据摄取区

   •原始数据区

   •可信的数据区

   •数据准备区

   •精炼的数据和洞察力区域

   •市场数据

   通过这些区域,将从左到右进行逻辑处理。下图显示了可以在哪些地方使用数据虚拟化来提高敏捷性和减少特定区域的数据复制。

a19bc81bfa2eec64a912d94d5fd3f4e3.png

   在数据摄入区域内,可以对一些结构化的已理解的数据源进行虚拟化以简化来自多个数据源的摄入,并将被摄入的数据限制在感兴趣的数据上。这意味着在摄入区域内可能存在一些虚拟摄入数据。如果数据由于法律原因无法移动(例如GDPR),这可能特别有用。

   原始数据区是被批准接收的数据,这些数据已经被合格的数据专家“签署”,以便在企业内部使用,这些数据专家能够理解在数据自动发现、分析和编目之后被接收的原始数据。因此,原始数据区域可能同时具有物理数据集和虚拟数据集。

   数据虚拟化还可以在可信数据区发挥作用,在可信数据区中,已清理和集成的主数据、参考数据和历史事务活动数据存储在MDM系统、RDM系统、数据仓库和归档数据仓库数据存储中。在这里,可能存在受信任的主数据、引用数据或历史数据仓库数据的多个虚拟视图。也可能有原始数据的虚拟视图。这里的目标不是为数据科学家设置障碍,而是让他们更容易访问数据,并加快自助数据准备,以便输入数据科学项目中正在开发的分析模型。它还可以用于保护受信任数据区或原始数据区中的敏感数据,并监督数据科学家可以看到什么,不能看到什么。因此,这其中既有治理因素,也有提高生产率因素,可以证明为什么数据虚拟化会产生影响。

   在数据精炼区,可以处理和集成来自虚拟和物理数据集的数据,以提供数据仓库所需的数据,并提供输入属性数据,以训练预测模型,例如使用有监督的机器学习。精炼数据的输出是可信的、准备好的和集成的数据和/或见解,这也可能是精炼数据区中虚拟数据集和物理数据集的混合。此时,在将数据发布到数据市场(信息目录上的一个区域)以供企业中的其他业务用户和应用程序查找、消费和使用之前,需要将数据映射到常见的业务数据名称的通用业务词汇表中。

   数据虚拟化还可以用于数据湖的最后一个地方,那就是数据市场。如果人们在数据市场上找到并看到他们需要的可信数据,那么危险就在于他们都想下载这些数据。换句话说,他们想把一切都“拉到边缘”。对于许多公司来说,出于各种各样的原因这是他们最不希望发生的事情。首先,如果数据现在是可信的和受治理的,那么为什么要在整个企业中将数据集发送到再次失去对数据集的跟踪并且无法对其进行治理的地方呢?另外,如何阻止人们创建导致违反法规遵从性的数据副本?答案不是将数据作为一种实际服务来提供,而是将数据作为一种虚拟服务来提供,从而防止“失控副本”的发生,防止未经授权的访问数据,以及防止数据在不被允许的情况下被带出司法管辖区而导致的违规行为。

   数据虚拟化在数据湖中的作用是非常重要的。它提高了敏捷性和自助服务的生产力,它还引入了治理,防止受信任数据的治理失控。

相关文章
|
存储 数据挖掘 BI
数据平台发展史-从数据仓库数据湖到数据湖仓 1
数据平台发展史-从数据仓库数据湖到数据湖仓
|
8月前
|
存储 机器学习/深度学习 数据采集
【专栏】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具
【4月更文挑战第27天】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具。数据仓库是经过规范化处理的结构化数据集合,适合支持已知业务需求;而数据湖存储原始多类型数据,提供数据分析灵活性。数据仓库常用于企业决策、财务分析,而数据湖适用于大数据分析、机器学习和物联网数据处理。企业需根据自身需求选择合适的数据存储方式,以挖掘数据价值并提升竞争力。理解两者异同对企业的数字化转型至关重要。
149 2
|
5月前
|
存储 缓存 数据管理
阿里云EMR数据湖文件系统问题之JindoFS数据孤岛的问题如何解决
阿里云EMR数据湖文件系统问题之JindoFS数据孤岛的问题如何解决
|
存储 人工智能 Cloud Native
耳朵经济快速增长背后,喜马拉雅数据价值如何释放 | 创新场景
喜马拉雅和阿里云的合作,正走在整个互联网行业的最前沿,在新的数据底座之上,喜马拉雅的AI、大数据应用也将大放光彩。本文摘自《云栖战略参考》
46904 5
耳朵经济快速增长背后,喜马拉雅数据价值如何释放 | 创新场景
|
8月前
|
存储 对象存储 SQL
【获奖名单公示】Hologres实时湖仓分析挑战赛
5分钟快速使用Hologres实时湖仓能力,无需移动数据,直接加速读取存储于数据湖OSS上的Hudi、Delta、Paimon等格式类型的数据
【获奖名单公示】Hologres实时湖仓分析挑战赛
|
8月前
|
存储 人工智能 运维
【云原生企业级数据湖:打破数据孤岛,优化存储成本】
【云原生企业级数据湖:打破数据孤岛,优化存储成本】 随着大数据时代的到来,企业对于数据的处理和存储需求日益增长。如何有效地存储和管理大量数据,同时降低运维成本,成为了企业面临的一大挑战。盛通教育的云原生企业级数据湖方案,正是为了解决这一问题而设计的。
223 1
|
8月前
|
SQL 分布式计算 Apache
流数据湖平台Apache Paimon(六)集成Spark之DML插入数据
流数据湖平台Apache Paimon(六)集成Spark之DML插入数据
235 0
|
存储 数据采集 安全
什么是数据管理,数据治理,数据中心,数据中台,数据湖?
什么是数据管理,数据治理,数据中心,数据中台,数据湖?
282 0
|
分布式计算 DataWorks 对象存储
全链路数据湖开发治理解决方案2.0重磅升级,全面增强数据入湖、调度和治理能力
阿里云全链路数据湖开发治理解决方案能力持续升级,发布2.0版本。解决方案包含开源大数据平台E-MapReduce(EMR) , 一站式大数据数据开发治理平台DataWorks ,数据湖构建DLF,对象存储OSS等核心产品。支持EMR新版数据湖DataLake集群(on ECS)、自定义集群(on ECS)、Spark集群(on ACK)三种形态,对接阿里云一站式大数据开发治理平台DataWorks,沉淀阿里巴巴十多年大数据建设方法论,为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力,帮助客户提升数据的应用效率。
1524 1
|
SQL 存储 人工智能
数据平台发展史-从数据仓库数据湖到数据湖仓 2
数据平台发展史-从数据仓库数据湖到数据湖仓

热门文章

最新文章