备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

Apache iceberg：Netflix 数据仓库的基石

2020-02-28 6208

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

EMR Serverless StarRocks，5000CU*H 48000GB*H

简介： Apache Iceberg 是一种用于跟踪超大规模表的新格式，是专门为对象存储（如S3）而设计的。本文将介绍为什么 Netflix 需要构建 Iceberg，Apache Iceberg 的高层次设计，并会介绍那些能够更好地解决查询性能问题的细节。

Apache Iceberg 是一种用于跟踪超大规模表的新格式，是专门为对象存储（如S3）而设计的。本文将介绍为什么 Netflix 需要构建 Iceberg，Apache Iceberg 的高层次设计，并会介绍那些能够更好地解决查询性能问题的细节。

本文由 Ryan Blue 分享，他在 Netflix 从事开源数据项目，是 Apache Iceberg 的最初创建者之一，也是 Apache Spark, Parquet, 以及 Avro 贡献者。

Apache Iceberg 是由 Netflix 开发开源的，其于 2018年11月16日进入 Apache 孵化器，是 Netflix 公司数据仓库基础。在功能上和我们熟悉的 Delta Lake 或者 Apache Hudi 类似，但各有优缺点。
任何东西的诞生都是有其背后的原因，那么为什么 Netflix 需要开发 Apache Iceberg？

在 Netflix，他们希望有更智能的处理引擎，比如有 CBO 优化，更好的 Join 实现，缓存结果集以及物化视图等功能。同时，他们也希望减少人工维护数据。

Netflix 面临的问题包括：1、不安全的操作随处可见；2、和对象存储交互有时候会出现很大的问题；3、无休止的可扩展性挑战。
为了解决这些问题，Iceberg 诞生了。那么 Iceberg 是什么？

iceberg 是一种可伸缩的表存储格式，内置了许多最佳实践。

什么？是一种存储格式？可使我们已经有 Parquet，Avro 以及 ORC 这些格式了，为什么还要设计一种新格式？

iceberg 允许我们在一个文件里面修改或者过滤数据；当然多个文件也支持这些操作。为了展示这点，我们来看看一张 Hive 表。

Hive 表的核心思想是把数据组织成目录树，如上所述。

如果我们需要过滤数据，可以在 where 里面添加分区相关的信息。

带来的问题是如果一张表有很多分区，我们需要使用 HMS（Hive MetaStore）来记录这些分区，同时底层的文件系统（比如 HDFS）仍然需要在每个分区里面记录这些分区数据。

这就导致我们需要在 HMS 和文件系统里面同时保存一些状态信息；因为缺乏锁机制，所以对上面两个系统进行修改也不能保证原子性。

当然 Hive 这样维护表也不是没有好处。这种设计使得很多引擎（Hive、Spark、Presto、Flink、Pig）都支持读写 Hive 表，同时支持很多第三方工具。简单和透明使得 Hive 表变得不可或缺的。

Iceberg 的目标包括：1、成为静态数据交换的开放规范，维护一个清晰的格式规范，支持多语言，支持跨项目的需求等。

2、提升扩展性和可靠性。能够在一个节点上运行，也能在集群上运行。所有的修改都是原子性的，串行化隔离。原生支持云对象存储，支持多并发写。

3、修复持续的可用性问题，比如模式演进，分区隐藏，支持时间旅行、回滚等。

Iceberg 主要设计思想：记录表在所有时间的所有文件，和 Delta Lake 或 Apache Hudi 一样，支持 snapshot，其是表在某个时刻的完整文件列表。每一次写操作都会生成一个新的快照。

读取数据的时候使用当前的快照，Iceberg 使用乐观锁机制来创建新的快照，然后提交。

Iceberg 这么设计的好处是：

所有的修改都是原子性的；
没有耗时的文件系统操作；
快照是索引好的，以便加速读取；
CBO metrics 信息是可靠的；
更新支持版本，支持物化视图。

Iceberg 在 Netflix 生产环境维护着数十 PB 的数据，数百万个分区。对大表进行查询能够提供低延迟的响应。

生产环境中使用 Flink 管道在 3 个 AWS regions 写数据。Lift 服务将数据移到一个 region。Merge 服务对小文件进行合并。

可用性方面：回滚是家常便饭。

未来工作：1、支持 Spark 向量化以便实现快速的 bulk read，Presto 向量化已经支持。2、行级别的删除，支持 MERGE INTO 等。

推荐相关阅读：
[Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析
](https://developer.aliyun.com/article/744920?spm=a2c6h.12873581.0.dArticle744920.592a3a183ThfM2&groupCode=apachespark)

本文转载自公众号：过往记忆大数据
原文链接：https://mp.weixin.qq.com/s/acWcoZ25zDXetA3ewypG2g

阿里巴巴开源大数据技术团队成立Apache Spark中国技术社区，定期推送精彩案例，技术专家直播，问答区近万人Spark技术同学在线提问答疑，只为营造纯粹的Spark氛围，欢迎钉钉扫码加入！

对开源大数据和感兴趣的同学可以加小编微信（下图二维码，备注“进群”）进入技术交流微信群。

文章标签：

开源大数据平台 E-MapReduce

自然语言处理

流计算

分布式计算

SQL

对象存储

Spark

Apache

HIVE

存储

大数据

关键词：

Apache数据仓库

Apache基石

iceberg数据仓库

Apache iceberg

数据仓库apache

相关实践学习

基于EMR Serverless StarRocks一键玩转世界杯

基于StarRocks构建极速统一OLAP平台

快速掌握阿里云 E-MapReduce

E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上，利用开源大数据生态系统，包括 Hadoop、Spark、HBase，为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。本课程主要介绍阿里云 E-MapReduce 的使用方法。

开源大数据EMR

目录

相关文章

喜欢猪猪

|

2月前

|

存储分布式计算分布式数据库

深入理解Apache HBase：构建大数据时代的基石

在大数据时代，数据的存储和管理成为了企业面临的一大挑战。随着数据量的急剧增长和数据结构的多样化，传统的关系型数据库（如RDBMS）逐渐显现出局限性。

喜欢猪猪

240 12 12

云浠Cherry

|

14天前

|

存储小程序 Apache

10月26日@杭州，飞轮科技 x 阿里云举办 Apache Doris Meetup，探索保险、游戏、制造及电信领域数据仓库建设实践

10月26日，由飞轮科技与阿里云联手发起的 Apache Doris 杭州站 Meetup 即将开启！

云浠Cherry

36 0 0

阿里云瑶池数据库SelectDB

|

3月前

|

存储数据挖掘 Apache

Apache Doris + Iceberg 快速搭建指南｜Lakehouse 使用手册（三）

如何在 Docker 环境下快速搭建 Apache Doris + Apache Iceberg 测试 & 演示环境，并展示各功能的使用操作

阿里云瑶池数据库SelectDB

115 8 8

Apache Doris + Iceberg 快速搭建指南｜Lakehouse 使用手册（三）

阿里云瑶池数据库SelectDB

|

4月前

|

SQL 存储关系型数据库

计算效率提升 30 倍、存储资源节省 90%，雨润集团基于 Apache Doris 的统一实时数据仓库建设实践

数字化转型的浪潮中，高效准确的数据分析能够帮助雨润集团快速洞察市场动态、优化供应链管理、提高生产效率。雨润集团引入了 Apache Doris 构建了统一实时数据仓库，实现了计算效率提升 30 倍、存储资源节省 90%、成本降低超 100 万、人员效率提升 3 倍，为智能化、高效化转型指明了方向。

阿里云瑶池数据库SelectDB

92 1 1

计算效率提升 30 倍、存储资源节省 90%，雨润集团基于 Apache Doris 的统一实时数据仓库建设实践

阿里云瑶池数据库SelectDB

|

5月前

|

存储运维 OLAP

抖音集团基于 SelectDB 内核 Apache Doris 的实时数据仓库实践

在直播、电商等业务场景中存在着大量实时数据，这些数据对业务发展至关重要。而在处理实时数据时，我们也遇到了诸多挑战，比如实时数据开发门槛高、运维成本高以及资源浪费等。

阿里云瑶池数据库SelectDB

118 0 0

抖音集团基于 SelectDB 内核 Apache Doris 的实时数据仓库实践

阿里云瑶池数据库SelectDB

|

6月前

|

SQL 大数据 BI

从离线到实时：无锡锡商银行基于 Apache Doris 的数据仓库演进实践

从离线到实时：无锡锡商银行基于 Apache Doris 的数据仓库演进实践

阿里云瑶池数据库SelectDB

65377 5 7

游客4llb6htoixmxw

|

存储缓存算法

Apache Iceberg 表有哪些性能优化方式

Apache Iceberg 表有哪些性能优化方式

游客4llb6htoixmxw

280 0 0

大数据流动

|

6月前

|

存储关系型数据库 Apache

Apache Doris 实时数据仓库的构建与技术选型方案

Apache Doris 实时数据仓库的构建与技术选型方案

大数据流动

660 32 32

xleesf

|

6月前

|

SQL 分布式计算 HIVE

最强指南！数据湖Apache Hudi、Iceberg、Delta环境搭建

最强指南！数据湖Apache Hudi、Iceberg、Delta环境搭建

xleesf

276 0 0

张家锋

|

SQL 分布式计算资源调度

Apache Doris 整合 FLINK CDC + Iceberg 构建实时湖仓一体的联邦查询

这篇教程将展示如何使用 Flink CDC + Iceberg + Doris 构建实时湖仓一体的联邦查询分析，Doris 1.1版本提供了Iceberg的支持，本文主要展示Doris和Iceberg怎么使用，同时本教程整个环境是都基于伪分布式环境搭建，大家按照步骤可以一步步完成。完整体验整个搭建操作的过程。

张家锋

2393 1 4

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

阿里封神谈hadoop生态学习之路

分布式快照算法: Chandy-Lamport

现代流式计算的基石：Google DataFlow

如何使用Kafka Connect实现同步RDS binlog数据

JindoFS: 云上大数据的高性能数据湖存储方案

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

JindoFS概述：云原生的大数据计算存储分离方案

5W1H(六何分析法)全景洞察大数据

助力云上开源生态 - 阿里云开源大数据平台的发展

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

EMR Serverless Spark：一站式全托管湖仓分析利器

降本60% ，阿里云 EMR StarRocks 全新发布存算分离版本

阿里云EMR StarRocks X Paimon创建 Streaming Lakehouse

从数据积累到大模型的智能飞跃，你准备好了吗？

DB-GPT v0.6.0 版本更新，发布六大核心新特性！

云栖实录 | 阿里云 OpenLake 解决方案重磅发布：多模态数据统一纳管、引擎平权联合计算、数据共享统一读写

阿里云 EMR Serverless Spark 版正式开启商业化

小红书 API 接口使用指南：笔记详情数据接口的接入与使用

阿里云 EMR StarRocks 在七猫的应用和实践

EMR Serverless StarRocks体验测评

相关课程

更多

高校精品课-北京理工大学-数据仓库与数据挖掘（上）

高校精品课-华东师范大学-数据仓库与商务智能

SaaS模式云数据仓库实战

数据分析系统之数据管理与数据仓库

阿里云云原生数据仓库AnalyticDB MySQL版使用教程

SaaS 模式云数据仓库必修课

相关电子书

更多

基于阿里云MaxCompute构建企业云数据仓库CDW的最佳实践建议

PostgresChina2018_陶征霖_新一代数据仓库OushuDB架构剖析

MaxCompute数据仓库数据转换实践

相关实验场景

更多

基于Hologres轻量实时的高性能OLAP分析

基于Hologres+Flink搭建GitHub实时数据大屏

云原生HTAP数据库，让你的交易和分析一库搞定

基于Flink+Tair搭建实时监控大屏

基于数据湖架构的网站访问行为分析

使用Flink实时发现最热Github项目

推荐镜像

更多

apache

packman

CPAN

下一篇

在 BatchCompute 上玩转 Blender 渲染