什么是数据湖引擎

简介: 什么是数据湖引擎

网络异常,图片无法展示
|

什么是数据湖引擎


数据湖引擎是一种开源软件解决方案或云服务,它通过一组统一的 api 和数据模型为分析工作负载的各种数据源提供关键功能。数据湖引擎解决了快捷访问、加速分析处理、保护和屏蔽数据、管理数据集以及提供跨所有数据源的统一数据目录等方面的关键需求。

数百万数据消费者使用的工具,如 BI 工具、数据科学平台和仪表板工具,假设所有数据都存在于一个高性能的关系数据库中,当数据在多个系统中,或者在非关系存储(如 ADLS、Amazon S3、Hadoop 和 NoSQL 数据库)中,这些工具的能力就会受到影响。因此,它的任务是将这些数据转移到关系环境中,创建多维数据集,并为不同的分析工具生成专用视图。数据湖引擎简化了这些挑战,允许公司将数据存放在任何地方。

数据湖引擎架构


数据湖引擎介于管理数据系统、分析可视化和数据处理工具之间。数据湖引擎不是将数据从数据源移动到单个存储库,而是部署在现有数据源和数据使用者的工具(如 BI 工具和数据科学平台)之上。


网络异常,图片无法展示
|


从这些工具的角度来看,数据湖引擎是使用标准 SQL 通过 ODBC、JDBC 或 REST 进行访问的,而数据湖引擎负责尽可能高效地访问和保护数据,不管你的数据是在哪里存放的。

数据湖引擎的好处


BI 分析工具,如 Tableau、Power BI、R、Python 和机器学习模型,是为数据生活在一个单一的、高性能的关系数据库中的环境而设计的。然而,多数组织使用不同的数据格式和不同的技术在多种解决方案中管理他们的数据。多数组织现在使用一个或多个非关系型数据存储,如云存储(如 S3、ADLS)、Hadoop 和 NoSQL 数据库(如 Elasticsearch、Cassandra)。

当数据存储在一个独立的高性能关系数据库中时,BI 工具、数据科学系统和机器学习模型可以很好运用这部分数据。然而,就像我们上面所说的一样,数据这并不是存在一个地方。因此,我们通常应用自定义 ETL 开发来集成来自不同系统的数据,以便于我们后续分析。通常分析技术栈分为以下几类:

  • ODS,数据从不同的数据库转移到单一的存储区域,如云存储服务(如 Amazon S3、ADLS)。    
  • 数据仓库,虽然可以在 Hadoop 和云存储上直接执行 SQL 查询,但是这些系统的设计目的并不是提供交互性能。因此,数据的子集通常被加载到关系数据仓库或 MPP 数据库中,也就是构建数据仓库。
  • 数据集市,为了在大型数据集上提供交互性能,必须通过在 OLAP 系统中构建多维数据集或在数据仓库中构建物化聚合表对数据进行预聚合。

这种多层体系架构带来了许多挑战。例如:

  • 灵活性,比如数据源的变化或新的数据需求,必须重新访问数据仓库每一层,以确保后续应用人员来使用,可能会花费较长的实施周期。
  • 复杂性,数据分析人员必须了解所有存储数据的查询语法,增加了不必要的复杂性。
  • 技术成本,该架构需要广泛的定制 ETL 开发、DBA 专业知识和数据工程来满足业务中不断发展的数据需求。
  • 基础设施成本,该架构需要大量的专有技术,并且通常会导致存储在不同系统中的数据产生许多副本。
  • 数据治理,该架构如果血缘关系搞的不好,便使得跟踪、维护变得非常困难。
  • 数据及时性,在 ETL 的过程中需要时间,所以一般数据是 T-1 的统计汇总。

数据湖引擎采用了一种不同的方法来支持数据分析。数据湖引擎不是将数据移动到单个存储库中,而是在数据原本存储的地方访问数据,并动态地执行任何必要的数据转换和汇总。此外,数据湖引擎还提供了一个自助服务模型,使数据使用者能够使用他们喜欢的工具(如 Power BI、Tableau、Python 和 R)探索、分析数据,而不用关心数据在哪存、结构如何。

有些数据源可能不适合分析处理,也无法提供对数据的有效访问。数据湖引擎提供了优化数据物理访问的能力。有了这种能力,可以在不改变数据使用者访问数据的方式和他们使用的工具的情况下优化各个数据集。

与传统的解决方案相比,数据湖引擎使用多种技术使数据消费者能够访问数据,并集成这些技术功能到一个自助服务的解决方案中。


参考:dremio

https://www.dremio.com/

目录
相关文章
|
8月前
|
SQL 消息中间件 Kafka
流数据湖平台Apache Paimon(二)集成 Flink 引擎
流数据湖平台Apache Paimon(二)集成 Flink 引擎
1007 0
|
8月前
|
SQL 分布式计算 Apache
流数据湖平台Apache Paimon(五)集成 Spark 引擎
流数据湖平台Apache Paimon(五)集成 Spark 引擎
240 0
|
8月前
|
SQL 存储 Apache
流数据湖平台Apache Paimon(四)集成 Hive 引擎
流数据湖平台Apache Paimon(四)集成 Hive 引擎
538 0
|
存储 SQL 算法
如何打造一款极速数据湖分析引擎
本文向读者详细揭秘了数据湖分析引擎的关键技术,并通过 StarRocks 来帮助用户进一步理解系统的架构。
1230 0
如何打造一款极速数据湖分析引擎
|
8月前
|
SQL 分布式计算 数据处理
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
180 2
|
8月前
|
存储 SQL 分布式计算
基于Apache Hudi + MinIO 构建流式数据湖
基于Apache Hudi + MinIO 构建流式数据湖
293 1
|
18天前
|
存储 SQL 大数据
从数据存储到分析:构建高效开源数据湖仓解决方案
今年开源大数据迈向湖仓一体(Lake House)时代,重点介绍Open Lake解决方案。该方案基于云原生架构,兼容开源生态,提供开箱即用的数据湖仓产品。其核心优势在于统一数据管理和存储,支持实时与批处理分析,打破多计算产品的数据壁垒。通过阿里云的Data Lake Formation和Apache Paimon等技术,用户可高效搭建、管理并分析大规模数据,实现BI和AI融合,满足多样化数据分析需求。
|
5月前
|
数据采集 存储 分布式计算
构建智能数据湖:DataWorks助力企业实现数据驱动转型
【8月更文第25天】本文将详细介绍如何利用阿里巴巴云的DataWorks平台构建一个智能、灵活、可扩展的数据湖存储体系,以帮助企业实现数据驱动的业务转型。我们将通过具体的案例和技术实践来展示DataWorks如何集成各种数据源,并通过数据湖进行高级分析和挖掘,最终基于数据洞察驱动业务增长和创新。
386 53
|
存储 人工智能 数据库
企业级数据湖的构建之道(一)
企业级数据湖的构建之道(一)
206 1
|
6月前
|
存储 搜索推荐 数据建模
阿里巴巴大数据实践之数据建模:构建企业级数据湖
阿里巴巴通过构建高效的数据湖和实施先进的数据建模策略,实现了数据驱动的业务增长。这些实践不仅提升了内部运营效率,也为客户提供了更好的服务体验。随着数据量的不断增长和技术的不断创新,阿里巴巴将持续优化其数据建模方法,以适应未来的变化和发展。