谈谈如何构建受治理的数据湖

简介: 受治理的数据湖将增加企业数据资产的价值。对于那些在运营战略中优先考虑数据的组织来说,数据湖是理想的解决方案。

受治理的数据湖将增加企业数据资产的价值。对于那些在运营战略中优先考虑数据的组织来说,数据湖是理想的解决方案。当多个团队需要访问企业数据时,安全的数据共享是一个关键因素。为了帮助管理这种使用,组织可以依赖一个受治理的数据湖,该湖容纳原始结构化和非结构化数据,这些数据是可信的、安全的和受治理的。

对于那些从数据中获取价值的组织,包括关于客户、员工、交易和其他资产的数据,受治理的数据湖为识别、理解、共享和利用这些数据创造了巨大的机会。

ccb57b03de9ef8210e05db72b59198e3.png

一、受治理数据湖的体系结构

架构设计决定了受治理数据湖的体系结构。数据存储库由三个主要部分组成。数据存储库提供了存储数据和运行尽可能接近数据的分析的平台;数据湖服务定位、访问、准备、转换、处理和移动数据,并将其移入和移出数据存储库;数据管理和治理结构有助于治理和管理数据湖中的数据。数据治理功能验证并增强数据质量,保护数据不被滥用,确保在生命周期的适当时刻更新、保留并最终删除数据。

治理,即数据的组织和对数据质量有保证的能力,是管理数据湖的一个重要方面。虽然数据湖旨在提供对数据的灵活访问,但必须要有一个治理系统来确保数据具有完备的安全性、受保护性并继续有用。受治理的数据湖可以按其层次进行说明,如下所示:

•基础层,主要基于数据治理;

•中间层,它用新的和附加的数据类型和数据行为扩展初始数据湖存储库;

•高级层,支持自助服务分析。

f1dec802edc6c92b2977ce25abe19045.png

每个层为组织中的不同数据消费者保存特定的数据。架构师可以从发布的参考体系结构中获得参照,该体系结构由单个和通用的元数据存储库支持。数据科学家受益于一个控制区域,在那里他们可以存放正在进行的沙箱。

数据湖的好处来自于数据治理。治理推动了“数据优先”的文化,在这种文化中,业务用户拥有数据的所有权,并就规则和策略达成一致。共享定义创建了相互理解,这有助于避免团队之间或团队之间的混淆。有了这一共同点,我们可以访问可信数据,并加快分析应用程序的洞察力。业务价值从对数据及其重要性的认识转变为随时进行灵活的分析。

一个模块化的、可伸缩的数据湖由几个元素组成,这些元素支持了整个组织的自助访问。

二、四种类型的数据消费者

使用数据湖中数据的用户在各自关注的方面各不相同。了解它们处理数据的方法之间的差异是成功治理的一个重要方面。

1、数据分析团队

-管理数据和建立模型的数据科学家

–将模型转化为应用程序的分析开发人员

–将分析应用程序整合到操作系统中的应用程序开发人员

2、数据管家团队

–优化数据质量并准备ETL作业

–编目数据并执行元数据管理

–在数据保护和隐私之间取得平衡

3、治理、风险和合规团队

–构建数据治理和安全策略的数据治理专家

–保护数据以确保在所有流程中实施隐私控制

–编制保留、归档和处置要求,并确保数据符合政策和法规

4、业务应用团队

–业务线(LOB)高管,如CMOs、CFO或CHRO

–成为数据业务所有者的首席数据官

–为实现特定业务成果或可操作见解而实施系统的业务线主管

三、受治理数据湖的构建

受治理数据湖是一种独立于特定技术包括治理和管理过程的参考体系结构。它不是Hadoop或企业数据仓库。受治理的数据湖是一种内部部署或基于云的解决方案,适用于希望将数据置于其运营核心的组织。受治理数据湖的构建块包括以下关键元素:

■企业IT数据交换可以在数据湖和企业IT系统之间提取、分析、提炼、转换和交换数据,并将其从数据池移动到数据湖。它清理数据并持续监控数据质量。

■数据目录服务描述了数据湖中的数据的含义、分类方式以及由此产生的对数据的治理需求。

■治理有助于管理数据湖中的数据,并对数据湖中存储的数据应用适当的策略、安全性、数据质量和隐私。

■自助服务访问由三组服务组成,它们提供对数据湖的按需访问。分析用户的自助服务访问允许访问存储的原始数据。对于LOB团队,该服务以简化的数据结构提供标准化数据。对于治理团队、风险和合规团队,该服务为审计提供受治理的数据。

1、从各种来源摄取数据

摄取是在数据湖、企业IT系统和其他现有数据湖之间提取、转换、质量处理和交换数据的过程。数据湖中的大部分数据来自组织的IT系统。这些数据类型可以是结构化的、半结构化的或非结构化的。数据源可以是操作业务的系统、网站日志或其他监视活动的源。

fe46456a9f24505de97316e11b476989.png

■成功的做法

–无中断地将数据流到数据湖

–分析经过转换、标准化和丰富化的数据

–即使在数据量增加的情况下也能降低存储成本

–使用沙盒进行探索性分析

■失败的表现

–随着数据量的增加,难以保持数据的新鲜

–丧失使用非结构化信息资产的能力

–支付更高的存储成本

–使数据清理复杂化,从而导致更高的数据处理成本

2、数据目录

数据目录有助于标记数据湖中的数据,并创建信息资产的清单。目录接口为数据湖用户提供关于其分类、沿袭以及如何治理数据的信息。

•允许在目录中捕获非结构化信息资产

•与几乎所有信息资产的开放生态系统集成

–数据目录,用于存储组织中几乎所有的数据资产

–行业特定数据和业务术语促成因素

–作为元数据一部分的分级功能和标记

必须理解引入治理管道的数据,因此从业务角度来看,技术数据是有意义的。例如,一个9位数的号码可能是美国社会保险号码或雇员身份证号码,或两者兼而有之。分类和业务术语分配步骤为技术数据增加了业务含义。自动化是使这一过程规模化以满足湖泊中数据量和多样性的一个关键属性。然后,制定工作流程、质量评估和数据控制确保数据可以转移到目录中,从而使这些数据在整个企业中都可用。

b86f8ce5c8887fd23cc9c008b7e4fa83.png

■成功的做法

–增加实现结果的时间和分析数据的时间

–获取相关资产知识并提高数据的有用性

–跟踪数据沿袭并提高对数据的信任

–面向更广泛消费的市场数据资产

–协助数据合规性

■失败的表现

–冒险浪费时间搜索和标记数据

–查找数据时找不到了解数据的同事

–不知道谁有权访问数据

–未达到法规遵从性和治理要求

3、治理和管理数据

数据集成和治理结构使系统能够有效地跟踪数据池,以便了解传入的信息并自动应用管理策略。治理框架有助于记录治理策略和制定规则,以帮助您定义信息的结构化、存储、转换和移动方式。

数据治理的要求以策略、规则和分类的形式记录在目录中。非结构化资产是数据湖的一部分,并且数据级别的数量、多样性和速度都要得到维护。

8ca38a7dbfef7a54641f52d2f53cc95b.png

■成功的做法

–跟上新的数据量并继续管理它

–使用行业特定的法规遵从性工具遵守法规要求

–加快主数据的采用

–利用高质量数据提高洞察力准确性

–快速响应法规遵从性审核

-提高保护数据的能力

■失败的表现

–无法管理来自结构化和非结构化源的不断增长的数据量

–浪费时间查找数据,这可能会影响审核就绪性

–错失了遵守法规遵从性和治理要求的机会

4、自助服务或报告

自助服务访问可以通过简单的搜索界面从数据中查找相关信息。它为自给自足的建设者提供高质量、可信的数据,这些建设者可以使用这些数据在其数据科学计划中构建分析模型。它还允许非技术用户在构建和部署模型之前转换数据。

直接访问数据有助于IT构建人员进行数据准备和转换工作。这种访问有助于治理和法规遵从性团队管理数据以备审计。它还帮助解决方案消费者为他们的业务需求创建定制报告,并能够访问业务就绪的数据,以便他们能够快速做出决策,并从他们的数据中获得有意义的业务见解。

d83714e6ff739c2166d9ea49d506bbcc.png

■成功的做法

–允许数据用户访问上下文数据

–通过企业知识、社会标记和信息资产的定性评级,帮助数据消费者信任数据

–监视数据成为所有数据消费者都可以访问的组织资产

–更快实现价值

–加速创新

–实现敏捷和迭代的数据探索和分析

■失败的表现

–花更多的时间查找和准备数据,而不是分析数据

–失去查找或访问非结构化资产的能力

–由于无法访问受信任的数据而使决策变慢

–经验阻碍创新

四、结束语

根据Radiant Advisors的研究,72%的领导者认为治理和安全是关键挑战,但也是组织成功的首要因素。第一步是将治理和信息体系结构视为优先事项。这将打开组织内部的对话,明确定义所有数据用户对其数据的需求。在一个坏数据输入等于坏数据输出的世界中,每个数据用户都成为对话的一部分。为数据集成、数据质量处理和数据治理部署一个企业范围的统一平台对于从分析计划中获得成功至关重要。这样做可以让我们有能力采集数据,确保数据的高质量,并管理它,以纳入分析过程。通过使用对数据湖的管理方法来应对挑战,可以建立一个基础来交付可信数据以供多种用途。无论是管理海量数据的可扩展性、特定于行业的加速器、使结构化、非结构化和半结构化数据可用的能力,还是以机器学习和人工智能专业知识为主导,企业都需要考虑全面受治理的数据湖解决方案,以建立一个可信和受管理的数据湖。

相关文章
|
15天前
|
存储 人工智能 运维
数据湖建设实践:使用AWS S3与LakeFormation构建灵活数据存储
【4月更文挑战第8天】本文分享了使用AWS S3和LakeFormation构建数据湖的经验。选择S3作为数据湖存储,因其无限容量、高可用性和持久性,以及与多种系统的兼容性。LakeFormation则负责数据治理和权限管理,包括元数据管理、简化数据接入、细粒度权限控制和审计。通过这种方式,团队实现了敏捷开发、成本效益和数据安全。未来,数据湖将融合更多智能化元素,如AI和ML,以提升效能和体验。此实践为数据驱动决策和企业数字化转型提供了有力支持。
20 2
|
1月前
|
消息中间件 监控 Kafka
Yotpo构建零延迟数据湖实践
Yotpo构建零延迟数据湖实践
32 0
|
1月前
|
存储 SQL 分布式计算
使用Apache Hudi构建大规模、事务性数据湖
使用Apache Hudi构建大规模、事务性数据湖
20 0
|
1月前
|
存储 SQL 分布式计算
Apache Hudi在Linkflow构建实时数据湖的生产实践
Apache Hudi在Linkflow构建实时数据湖的生产实践
40 0
|
1月前
|
存储 分布式计算 分布式数据库
字节跳动基于Apache Hudi构建EB级数据湖实践
字节跳动基于Apache Hudi构建EB级数据湖实践
27 2
|
1月前
|
SQL 关系型数据库 MySQL
Flink CDC + Hudi + Hive + Presto构建实时数据湖最佳实践
Flink CDC + Hudi + Hive + Presto构建实时数据湖最佳实践
145 0
|
1月前
|
存储 SQL 数据管理
字节跳动基于Apache Hudi构建实时数据湖平台实践
字节跳动基于Apache Hudi构建实时数据湖平台实践
48 0
|
1月前
|
SQL 分布式计算 数据处理
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
52 2
|
1月前
|
存储 SQL 分布式计算
基于Apache Hudi + MinIO 构建流式数据湖
基于Apache Hudi + MinIO 构建流式数据湖
84 1
|
7月前
|
存储 人工智能 数据库
企业级数据湖的构建之道(一)
企业级数据湖的构建之道(一)
87 1