数据湖

简介: 版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。 https://blog.csdn.net/chszs/article/details/79349090 数据湖2018.2.21版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。
版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。 https://blog.csdn.net/chszs/article/details/79349090

数据湖

  • 2018.2.21
  • 版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。

我们生活在数据时代,根据Gartner的报告,全球信息数据量每年以59%的速度递增。管理海量数据是一个重大挑战,数据的品种和增长速度使管理变得更加困难。而且非常明显的是,越来越巨量的数据随着时间在继续生成,特别是在手持设备和互联网连接设备数量的指数增长的背景下。

对于参与其中的组织来说,这是事实——但对于其他传统组织来说,数据量的增长并不是那么高。不同组织的数据量不同。尽管存在这种差异,但它们之间的一个共同因素是,对于不同的利益相关方来说,进行有意义且有用的分析的重要性。随着越来越多的组织使用不同功能的工具,为不同利益相关者生成有意义且有用的报告的任务变得越来越具有挑战性。

什么是数据湖?

Gartner研究总监Nick Heudecker解释了数据湖:

“从广义上讲,数据湖作为企业范围的数据管理平台进行销售,以分析原生格式的不同数据源。这个想法很简单:不是将数据放入专门构建的数据存储区,而是将其移入原始格式的数据湖。这消除了数据摄入的前期成本,如转换。数据放入湖中后,可供组织中的每个人分析。”

因此,数据湖通过打破数据孤岛,帮助企业洞察数据。“数据湖”一词在2010年首次使用,其定义/特征仍在不断演变。一般来说,“数据湖”指的是一个中央存储库,能够存储从各种内部和外部源以接近原始数据的格式获取的Zettabytes数据。

数据湖的挑战

数据湖通常被认为是收集和整理来自遗留系统和来源,数据仓库和分析系统,第三方数据,社交媒体数据,点击流数据以及可能被视为有用信息的所有企业数据企业。虽然这个定义很有趣,但它对每个组织来说都是可行的还是必需的?

不同的组织具有不同的分布式数据挑战和模式,并且随着场景的多样化,每个组织都有自己的数据湖需求。虽然数据的需求,模式,来源和体系结构不同,但在构建中央存储或数据中心方面面临的挑战是相同的:

  • 将来自不同来源的数据导入共同的中央池
  • 处理少量但高度多样化的数据
  • 与数据仓库或大数据相比,将数据存储在低成本基础架构中
  • 与中央数据存储接近实时同步数据
  • 中央数据的可追溯性和治理

数据湖的实施注意事项

在大多数情况下,数据湖与数据即服务模型的实质部署在一起,被视为集中记录系统,为企业级别的其他系统提供服务。本地化数据湖不仅扩展到支持多个团队,而且还生成多个数据湖实例以支持更大的需求。这些集中的数据可以被所有不同的团队用于分析需求。

有了这些理解,就可以在集成和治理方面讨论数据湖泊的各种需求。

数据湖整合的挑战

为了在企业级部署数据湖,它需要具备某些功能,以便将其整合到组织的整体数据管理策略,IT应用程序和数据流环境中。

  • 为了使数据湖的数据在以后的时间点有用,确保湖泊在正确的时间获取正确的数据非常重要。例如,数据湖可能会从企业财务软件中提取月度销售数据。如果数据湖太早接收数据,它可能只会获得部分数据集或根本没有数据。这可能会导致报告不准确,导致公司朝错误的方向发展。因此,将数据总体背景中的数据集成平台运行到数据湖应该能够根据业务情况实时和按需地从各种工具推送数据。
  • 虽然数据库的主要目的是存储数据,但有时(基于不同的业务案例,为了方便其他部门将来使用这些数据),一些数据需要在插入数据之前进行提取或处理湖。因此,集成平台不仅应该支持这一点,还要确保数据处理的准确性和正确的顺序。
  • 只有当存储的数据可以被所有不同部门提取以供自己使用时,集中式数据存储才是有用的。应该有能力将数据湖与其他应用程序或下游报告/分析系统集成。数据湖应该也支持REST API,不同的应用程序可以通过它们交互来获取或推送他们自己的数据。

数据湖治理的挑战

数据湖不仅仅是集中存储数据并在需要时将其提供给不同的部门。随着越来越多的用户开始直接使用数据湖或通过下游应用程序或分析工具,数据湖治理的重要性也随之增加。数据湖通过将来自不同储存库的多样化数据集引入单一储存库,创造了新的挑战和机遇。

主要挑战是确保数据治理政策和程序的存在并在数据湖中实施。每个数据集的拥有者在进入湖泊时都应该有明确的定义。应该有一个关于每个数据所需的可访问性,完整性,一致性和更新的非常详细的政策或指南。

为了解决上述问题,数据湖中应该有内置的机制来跟踪和记录数据湖中存在的任何数据资产的操纵。

数据湖对每个人都是一样的吗?

对于所有组织而言,数据湖的实施情况并不相同,因为数据量和数据收集要求因组织而异。总的来说,数据湖带来的观念是数据量应该在PB级或甚至更多,并且需要使用NoSQL数据库来实现。实际上,这些数据量和NoSQL DB的实现可能并不是所有组织都可能需要或可能无法实现的。拥有适合组织所有分析需求的中央数据存储的最终目标可以从SQL DB开始,并具有相当大的数据量。

目录
相关文章
|
4月前
|
存储 数据采集 数据挖掘
数据仓库VS数据湖:选择正确的数据存储解决方案
【8月更文挑战第23天】企业在选择数据存储解决方案时,应综合考虑业务需求、数据特性、技术实力及成本效益等多方面因素,以做出最符合自身发展的决策。
|
7月前
|
存储 大数据 BI
数据仓库、数据湖、湖仓一体,究竟有什么区别?
近几年大数据概念太多了,数据库和数据仓库还没搞清楚,就又出了数据湖,现在又说什么“湖仓一体”。乙方公司拼命造概念,甲方公司不管三七二十一,吭哧吭哧花钱搞数据建设。到头来发现,钱也花了,人力也投入了,但最基本的业务需求都解决不了。
|
存储 分布式计算 数据挖掘
【数据仓库和数据湖】
【数据仓库和数据湖】
|
存储 SQL 机器学习/深度学习
数据仓库与数据湖的联系与区别
数据仓库与数据湖的联系与区别
数据仓库与数据湖的联系与区别
|
存储 SQL JSON
【数据湖】塑造湖:数据湖框架
【数据湖】塑造湖:数据湖框架
|
存储 消息中间件 数据采集
数据湖(一):数据湖概念
数据湖是一个集中式的存储库,允许你以任意规模存储多个来源、所有结构化和非结构化数据,可以按照原样存储数据,无需对数据进行结构化处理,并运行不同类型的分析对数据进行加工,例如:大数据处理、实时分析、机器学习,以指导做出更好地决策。
923 1
数据湖(一):数据湖概念
|
存储 SQL API
|
存储 SQL 机器学习/深度学习
什么是数据湖引擎
什么是数据湖引擎
384 0
|
存储 SQL 安全
浅析数据湖与数据仓库
基于信息化的飞速发展,数据已经成为21世纪的一种潜在能源。我们可以利用大数据,人工智能等相关技术,科学的管理数据,进行数据分析,挖掘出数据的潜在价值,让数据转化为生产力的原料,生生不息。
352 0
|
存储 机器学习/深度学习 SQL
女朋友问小灰:什么是数据仓库?什么是数据湖?什么是智能湖仓?
首先,我们来讲一讲什么是数据库。 作为程序员,我们写的大多数商业项目,往往都需要用到大量的数据。计算机的内存,可以实现数据的快速存储和访问。
194 0
女朋友问小灰:什么是数据仓库?什么是数据湖?什么是智能湖仓?