在 CDP中使用Iceberg 为数据湖仓增压

本文涉及的产品
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 我们很高兴地宣布在CDP 中全面推出 Apache Iceberg。Iceberg 是 100% 开放的表格格式,由Apache Software Foundation开发,帮助用户避免供应商锁定。今天的一般可用性公告涵盖了在 Cloudera 数据平台 (CDP) 中的关键数据服务中运行的 Iceberg,包括Cloudera 数据仓库 ( CDW )、Cloudera 数据工程 ( CDE ) 和 Cloudera 机器学习 ( CML ))。这些工具使分析师和数据科学家能够通过他们选择的工具和分析引擎轻松地就相同的数据进行协作。

我们很高兴地宣布在 Cloudera 数据平台 (CDP) 中全面推出 Apache Iceberg。Iceberg 是 100% 开放的表格格式,由Apache Software Foundation开发,帮助用户避免供应商锁定。今天的一般可用性公告涵盖了在 Cloudera 数据平台 (CDP) 中的关键数据服务中运行的 Iceberg,包括Cloudera 数据仓库 ( CDW )、Cloudera 数据工程 ( CDE ) 和 Cloudera 机器学习 ( CML ))。这些工具使分析师和数据科学家能够通过他们选择的工具和分析引擎轻松地就相同的数据进行协作。作为 CDP 的一部分,公司无需付出任何努力即可获得 Iceberg 的好处。不再有锁定、不必要的数据转换或跨工具和云的数据移动,只是为了从数据中提取洞察力。 作为第一个提供开放数据湖仓的混合数据平台,CDP 支持对跨多个云和本地的云原生对象存储中的流数据和存储数据进行 PB 级的多功能分析。这使我们的客户可以自由选择他们喜欢的分析工具。凭借 Cloudera 对混合数据的愿景,采用开放数据湖仓的企业可以轻松地在本地环境和任何公共云之间获得应用程序互操作性和可移植性,而无需担心数据扩展。借助从一开始就内置在 CDP 中的共享数据体验 (SDX),客户可以从所有数据的通用元数据、安全性和治理模型中受益。

1. 为什么要将 Apache Iceberg 与 Cloudera 数据平台集成?

在 Cloudera,我们对开放性和互操作性的承诺毫不含糊。这推动了我们为 Apache Hive、Apache Spark、Apache Nifi、Apache Impala、Apache YuniKorn 等社区的创新做出了许多重大贡献。2022 年 2 月,我们在 CDP 中引入了 Apache Iceberg作为技术预览。 在过去的十年中,Cloudera 通过引入 Hive 表格式和 Hive ACID 实现了对数据湖的多功能分析。Lakehouse 模式已经发展到云,但是,它仍然由与主要引擎相关联的表格格式驱动,通常是单一供应商。另一方面,公司继续需要数据湖上高度可扩展和灵活的分析引擎和服务,而不受供应商的限制。组织需要能够随着业务的发展而发展的现代数据架构,我们很高兴通过第一个开放数据湖仓为他们提供支持。 Apache Iceberg现在作为 CDP 的一部分包含在内,它为现代数据架构带来了显着的好处,包括:

  • 就地进行表演变,涵盖架构和分区更改,作为单个命令,而不是耗时一周的过程
  • 通过时间点查询进行时间旅行,以实现取证可见性和法规遵从性功能
  • 并发多功能分析可满足从边缘到 AI 的端到端数据生命周期需求
  • 性能:通过积极分区提高性能以处理超大规模数据集

图片 2.png

2. CDP 提供了通往Iceberg的最快、最简单的途径

我们将 Iceberg 直接集成到 CDP 的 SDX 层中,因此客户可以轻松使用 Iceberg 并立即获得开放表格格式的所有生产力和性能优势。客户在单个命令中使用仅元数据迁移,而无需触及任何底层大型数据集。这是采用的巨大加速器。

3. 为您的数据湖仓增压,使其开放

数据湖仓对于 Cloudera 或我们的客户来说并不陌生。例如, IQVIA使用 Cloudera 将来自全球 250 个数据仓库(包括 Oracle、IBM Netezza 和 Teradata 系统)的超过 2 PB 数据汇集到一个全球多租户数据湖中,并在该数据湖上运行分析。IQVIA 使用 Hive 开放表格式和 Cloudera 的预集成多功能分析平台已有五年多的时间。但目前的数据湖屋架构模式还不够。我们看到公司需要一个跨越整个数据生命周期的平台,该平台可以提供多个高级分析用例,其中包含完整的动态数据和运营数据库产品。这是开放数据湖仓,只有 Cloudera 可以在混合数据平台中提供。

图片 1.png

借助 CDP 中的 Apache Iceberg,Cloudera 凭借开放的数据和社区生态系统以及企业强化和性能领先于数据湖仓。我们的技术预览客户分享了以下反馈: 

  • Teranet:“在评估了所有主要的开源存储框架来构建我们的 Lakehouse 之后,我们选择了 Apache Iceberg,因为它100% 开放、功能丰富并且具有强大的社区参与度。现在有了 Iceberg,CDP 支持开放的数据湖仓架构,该架构为我们的所有分析工作负载提供面向未来的数据平台。我们选择变更数据捕获作为我们在 Iceberg 上的第一个用例。通过频繁更新我们的数据湖,我们的目标是加速报告和商业智能,让我们的业务团队能够访问当前的洞察力。分区演化对我们来说也是一项关键能力,为大规模数据工程和 BI 工作负载提供卓越的查询性能,”Teranet 的系统架构师 Steve Brackenbury 说。 
  • Modak Nabu:“Modak 与 Cloudera 的合作使我们能够帮助我们的客户部署一个统一所有数据的 Lakehouse 架构,同时为任何分析用例(人工智能、机器学习、SQL、商业智能报告、仪表板和更多的。通过使用 Cloudera 的 CDP Iceberg 表格格式对 Modak Nabu 进行认证,企业客户可以加速任何数据的 PB 级数据摄取、管理和消费,从而简化数据管理和更快的数据访问,”Daniel Mantovani 说,创新主管莫达克分析。

客户通过 CDP 充分利用了分区演化功能,并通过在其数据上使用更细粒度的分区,实现了 10 倍以上的查询性能优势。他们可以做到这一点,而无需重新生成或修改任何基础数据。 我们对 Apache Iceberg 的集成增强了 CDP 超越数据湖仓的能力。我们可以在任何地方处理任何数据,包括混合云和多云。我们在您的数据诞生、登陆和使用的地方工作。

原文作者:Bill Zhang, Shaun Ahmadian, and Cloudera Contributors 原文链接:https://blog.cloudera.com/supercharge-your-data-lakehouse-with-apache-iceberg-in-cloudera-data-platform/


相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
6月前
|
存储 数据采集 JavaScript
深入理解数仓开发(一)数据技术篇之日志采集
深入理解数仓开发(一)数据技术篇之日志采集
|
6月前
|
消息中间件 关系型数据库 Kafka
深入理解数仓开发(二)数据技术篇之数据同步
深入理解数仓开发(二)数据技术篇之数据同步
|
6月前
|
分布式计算 DataWorks 关系型数据库
实时数仓 Hologres产品使用合集之如何将MySQL数据初始化到分区表中
实时数仓Hologres的基本概念和特点:1.一站式实时数仓引擎:Hologres集成了数据仓库、在线分析处理(OLAP)和在线服务(Serving)能力于一体,适合实时数据分析和决策支持场景。2.兼容PostgreSQL协议:Hologres支持标准SQL(兼容PostgreSQL协议和语法),使得迁移和集成变得简单。3.海量数据处理能力:能够处理PB级数据的多维分析和即席查询,支持高并发低延迟查询。4.实时性:支持数据的实时写入、实时更新和实时分析,满足对数据新鲜度要求高的业务场景。5.与大数据生态集成:与MaxCompute、Flink、DataWorks等阿里云产品深度融合,提供离在线
|
6月前
|
分布式计算 关系型数据库 数据挖掘
实时数仓 Hologres产品使用合集之误删Hologres一张表的数据,可以支持闪回功能吗
实时数仓Hologres的基本概念和特点:1.一站式实时数仓引擎:Hologres集成了数据仓库、在线分析处理(OLAP)和在线服务(Serving)能力于一体,适合实时数据分析和决策支持场景。2.兼容PostgreSQL协议:Hologres支持标准SQL(兼容PostgreSQL协议和语法),使得迁移和集成变得简单。3.海量数据处理能力:能够处理PB级数据的多维分析和即席查询,支持高并发低延迟查询。4.实时性:支持数据的实时写入、实时更新和实时分析,满足对数据新鲜度要求高的业务场景。5.与大数据生态集成:与MaxCompute、Flink、DataWorks等阿里云产品深度融合,提供离在线
|
4月前
|
SQL DataWorks 数据库连接
实时数仓 Hologres操作报错合集之如何将物理表数据写入临时表
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
4月前
|
DataWorks 负载均衡 Serverless
实时数仓 Hologres产品使用合集之如何导入大量数据
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
4月前
|
SQL 消息中间件 OLAP
OneSQL OLAP实践问题之实时数仓中数据的分层如何解决
OneSQL OLAP实践问题之实时数仓中数据的分层如何解决
72 1
|
4月前
|
SQL 分布式计算 关系型数据库
实时数仓 Hologres操作报错合集之指定主键更新模式报错主键数据重复,该如何处理
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
4月前
|
SQL 分布式计算 MaxCompute
实时数仓 Hologres产品使用合集之如何在插入数据后获取自增的id值
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
实时数仓 Hologres产品使用合集之如何在插入数据后获取自增的id值
|
4月前
|
存储 搜索推荐 关系型数据库
实时数仓 Hologres产品使用合集之如何在新增列的时候将历史数据也补上默认值
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。

热门文章

最新文章