数据湖

简介: 版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。 https://blog.csdn.net/chszs/article/details/79349090 数据湖2018.2.21版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。
版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。 https://blog.csdn.net/chszs/article/details/79349090

数据湖

  • 2018.2.21
  • 版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。

我们生活在数据时代,根据Gartner的报告,全球信息数据量每年以59%的速度递增。管理海量数据是一个重大挑战,数据的品种和增长速度使管理变得更加困难。而且非常明显的是,越来越巨量的数据随着时间在继续生成,特别是在手持设备和互联网连接设备数量的指数增长的背景下。

对于参与其中的组织来说,这是事实——但对于其他传统组织来说,数据量的增长并不是那么高。不同组织的数据量不同。尽管存在这种差异,但它们之间的一个共同因素是,对于不同的利益相关方来说,进行有意义且有用的分析的重要性。随着越来越多的组织使用不同功能的工具,为不同利益相关者生成有意义且有用的报告的任务变得越来越具有挑战性。

什么是数据湖?

Gartner研究总监Nick Heudecker解释了数据湖:

“从广义上讲,数据湖作为企业范围的数据管理平台进行销售,以分析原生格式的不同数据源。这个想法很简单:不是将数据放入专门构建的数据存储区,而是将其移入原始格式的数据湖。这消除了数据摄入的前期成本,如转换。数据放入湖中后,可供组织中的每个人分析。”

因此,数据湖通过打破数据孤岛,帮助企业洞察数据。“数据湖”一词在2010年首次使用,其定义/特征仍在不断演变。一般来说,“数据湖”指的是一个中央存储库,能够存储从各种内部和外部源以接近原始数据的格式获取的Zettabytes数据。

数据湖的挑战

数据湖通常被认为是收集和整理来自遗留系统和来源,数据仓库和分析系统,第三方数据,社交媒体数据,点击流数据以及可能被视为有用信息的所有企业数据企业。虽然这个定义很有趣,但它对每个组织来说都是可行的还是必需的?

不同的组织具有不同的分布式数据挑战和模式,并且随着场景的多样化,每个组织都有自己的数据湖需求。虽然数据的需求,模式,来源和体系结构不同,但在构建中央存储或数据中心方面面临的挑战是相同的:

  • 将来自不同来源的数据导入共同的中央池
  • 处理少量但高度多样化的数据
  • 与数据仓库或大数据相比,将数据存储在低成本基础架构中
  • 与中央数据存储接近实时同步数据
  • 中央数据的可追溯性和治理

数据湖的实施注意事项

在大多数情况下,数据湖与数据即服务模型的实质部署在一起,被视为集中记录系统,为企业级别的其他系统提供服务。本地化数据湖不仅扩展到支持多个团队,而且还生成多个数据湖实例以支持更大的需求。这些集中的数据可以被所有不同的团队用于分析需求。

有了这些理解,就可以在集成和治理方面讨论数据湖泊的各种需求。

数据湖整合的挑战

为了在企业级部署数据湖,它需要具备某些功能,以便将其整合到组织的整体数据管理策略,IT应用程序和数据流环境中。

  • 为了使数据湖的数据在以后的时间点有用,确保湖泊在正确的时间获取正确的数据非常重要。例如,数据湖可能会从企业财务软件中提取月度销售数据。如果数据湖太早接收数据,它可能只会获得部分数据集或根本没有数据。这可能会导致报告不准确,导致公司朝错误的方向发展。因此,将数据总体背景中的数据集成平台运行到数据湖应该能够根据业务情况实时和按需地从各种工具推送数据。
  • 虽然数据库的主要目的是存储数据,但有时(基于不同的业务案例,为了方便其他部门将来使用这些数据),一些数据需要在插入数据之前进行提取或处理湖。因此,集成平台不仅应该支持这一点,还要确保数据处理的准确性和正确的顺序。
  • 只有当存储的数据可以被所有不同部门提取以供自己使用时,集中式数据存储才是有用的。应该有能力将数据湖与其他应用程序或下游报告/分析系统集成。数据湖应该也支持REST API,不同的应用程序可以通过它们交互来获取或推送他们自己的数据。

数据湖治理的挑战

数据湖不仅仅是集中存储数据并在需要时将其提供给不同的部门。随着越来越多的用户开始直接使用数据湖或通过下游应用程序或分析工具,数据湖治理的重要性也随之增加。数据湖通过将来自不同储存库的多样化数据集引入单一储存库,创造了新的挑战和机遇。

主要挑战是确保数据治理政策和程序的存在并在数据湖中实施。每个数据集的拥有者在进入湖泊时都应该有明确的定义。应该有一个关于每个数据所需的可访问性,完整性,一致性和更新的非常详细的政策或指南。

为了解决上述问题,数据湖中应该有内置的机制来跟踪和记录数据湖中存在的任何数据资产的操纵。

数据湖对每个人都是一样的吗?

对于所有组织而言,数据湖的实施情况并不相同,因为数据量和数据收集要求因组织而异。总的来说,数据湖带来的观念是数据量应该在PB级或甚至更多,并且需要使用NoSQL数据库来实现。实际上,这些数据量和NoSQL DB的实现可能并不是所有组织都可能需要或可能无法实现的。拥有适合组织所有分析需求的中央数据存储的最终目标可以从SQL DB开始,并具有相当大的数据量。

目录
相关文章
|
存储 分布式计算 大数据
数据仓库与数据湖在大数据架构中的角色与应用
在大数据时代,数据仓库和数据湖分别以结构化数据管理和原始数据存储见长,共同助力企业数据分析。数据仓库通过ETL处理支持OLAP查询,适用于历史分析、BI报表和预测分析;而数据湖则存储多样化的原始数据,便于数据探索和实验。随着技术发展,湖仓一体成为趋势,融合两者的优点,如Delta Lake和Hudi,实现数据全生命周期管理。企业应根据自身需求选择合适的数据架构,以释放数据潜力。【6月更文挑战第12天】
525 5
|
11月前
|
数据采集 人工智能 搜索推荐
大咖说|Data+AI:企业智能化转型的核心驱动力
在数字化浪潮的推动下,企业正面临前所未有的挑战与机遇。数据与人工智能的结合,形成了强大的Data+AI力量,尤其在近期人工智能迅速发展的背景下,这一力量正在加速重塑企业的运营模式、竞争策略和市场前景,成为适应变化、提升竞争力、推动创新的核心驱动力。本文将讨论企业采用Data+AI平台的必要性及其在企业智能化转型中的作用。
570 0
大咖说|Data+AI:企业智能化转型的核心驱动力
|
关系型数据库 数据库 数据库管理
数据一致性
数据一致性
380 6
|
运维 数据挖掘 OLAP
阿里云Hologres:一站式轻量级OLAP分析平台的全面评测
在数据驱动决策的今天,企业对高效、灵活的数据分析平台的需求日益增长。阿里云的Hologres,作为一站式实时数仓引擎,提供了强大的OLAP(在线分析处理)分析能力。本文将对Hologres进行深入评测,探讨其在多源集成、性能、易用性以及成本效益方面的表现。
499 8
|
存储 人工智能 自动驾驶
文件存储CPFS摘获至顶网《2022 年度云存储产品》奖
IT基础设施在与新技术进行融合,实现产品创新,为企业构建数字基础设施提供有力支撑。阿里云文件存储CPFS,摘获了至顶网《2022 年度云存储产品》奖。
453 7
|
Cloud Native 关系型数据库 新能源
|
网络协议 编译器 Go
揭秘!TCP、RPC、gRPC、HTTP大PK,谁才是网络通信界的超级巨星?一篇文章带你秒懂!
【8月更文挑战第25天】本文以教程形式深入对比了TCP、RPC、gRPC与HTTP这四种关键通信协议,并通过Go语言中的示例代码展示了各自的实现方法。TCP作为一种可靠的传输层协议,确保了数据的完整性和顺序性;RPC与gRPC作为远程过程调用框架,特别适合于分布式系统的函数调用与数据交换,其中gRPC在性能和跨语言支持方面表现出色;HTTP则是广泛应用于Web浏览器与服务器通信的应用层协议。选择合适的协议需根据具体需求综合考量。
903 0
|
存储 NoSQL 关系型数据库
认识常见的一些数据库分类
数据库是用于存储、检索、管理和发送数据的系统。根据数据模型的不同,数据库可以分为多种类型。
1150 4
|
存储 分布式计算 Hadoop
【专栏】Hadoop,开源大数据处理框架:驭服数据洪流的利器
【4月更文挑战第28天】Hadoop,开源大数据处理框架,由Hadoop Common、HDFS、YARN和MapReduce组成,提供大规模数据存储和并行处理。其优势在于可扩展性、容错性、高性能、灵活性及社区支持。然而,数据安全、处理速度、系统复杂性和技能短缺是挑战。通过加强安全措施、结合Spark、自动化工具和培训,Hadoop在应对大数据问题中保持关键地位。
360 1
|
存储 SQL 消息中间件
流数据湖平台Apache Paimon(一)概述
流数据湖平台Apache Paimon(一)概述
744 0