备案控制台

开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

Data Lake Iceberg不同点有什么？

Data Lake Iceberg不同点有什么？求大佬解答

展开

收起

爱吃鱼的程序员 2020-12-28 11:24:30 711 0

1 条回答

写回答

取消提交回答

爱吃鱼的程序员

https://developer.aliyun.com/profile/5yerqm5bn5yqg?spm=a2c6h.12873639.0.0.6eae304abcjaIB

Iceberg没有类似的HoodieKey设计，其不强调主键。上文已经说到，没有主键，做update/delete/merge等操作就要通过Join来实现，而Join需要有一个类似SQL的执行引擎。Iceberg并不绑定某个引擎，也没有自己的引擎，所以Iceberg并不支持update/delete/merge。如果用户需要update数据，最好的方法就是找出哪些partition需要更新，然后通过overwrite的方式重写数据。Iceberg官网提供的quickstart以及Spark的接口均只是提到了使用SparkdataframeAPI向Iceberg写数据的方式，没有提及别的数据摄入方法。至于使用SparkStreaming写入，代码中是实现了相应的StreamWriteSupport，应该是支持流式写入，但是貌似官网并未明确提及这一点。支持流式写入意味着有小文件问题，对于怎么合并小文件，官网也未提及。我怀疑对于流式写入和小文件合并，可能Iceberg还没有很好的生产ready，因而没有提及（纯属个人猜测）。

2020-12-28 12:00:10

赞同展开评论打赏

问答分类：

开源大数据平台 E-MapReduce

问答地址：

开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

Delta Lake核心特性是什么？

315

1

0

Delta Lake关键特性是什么？

329

1

0

Delta Lake是怎样处理海量元数据？

323

1

0

Delta Lake与Databricks开源和Lakehouse架构的关系是什么？

453

1

0

Delta Lake表操作示例是怎么样的？

348

1

0

Data Lake Formation是什么意思？

296

1

0

DLA（Data Lake Analytic）起到了什么作用？

436

1

0

Delta lake数据湖存储与格式是什么呢？

991

1

0

Delta lake数据湖计算与分析内容是什么呀？

809

1

0

基于Delta lake、Hudi格式的湖仓一体架构是什么？

316

1

0

大数据与机器学习

开源大数据平台 E-MapReduce

阿里云EMR是云原生开源大数据平台，为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎，计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

我要提问

热门讨论

热门文章

阿里云E-MapReduce用自己搭建的DS，调用hive执行sql时，报这个错，是什么原因呢？

阿里云E-MapReduce中clickhouse或者starrocks 可以做商用化部署吗?

阿里云E-MapReduce需要变动什么吗？

E-MapReduceWorkflow 请问这么排查这种问题？

阿里云E-MapReduce Notebook怎么申请试用?

阿里云E-MapReduce 有人在mac 上配置 jindo sdk，用命令行访问 oss hdf

有 E-MapReduce on ECS 的维护手册吗？除了官网的那个，有没有文档形式的那种呢？

阿里云E-MapReduce公司最近Presto所在的服务器，请问这种问题各位有遇到过吗？

阿里云E-MapReduce中Workflow内的阿里云监控告警插件怎么配置啊？

请问hive 的hive-site.xml文件在哪啊

展开全部

阿里封神谈hadoop生态学习之路

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

JindoFS概述：云原生的大数据计算存储分离方案

助力云上开源生态 - 阿里云开源大数据平台的发展

开源大数据周刊-第90期

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

Apache Spark 3.0 将内置支持 GPU 调度

EMR Spark Relational Cache的执行计划重写

Spark中的资源调度

E-MapReduce的HBase集群使用Hue

展开全部

相关电子书

更多

Blink_Data_Lake 立即下载

Scaling 30 TB\'s of Data lake with Apache HBase and Scala DSL at Production 立即下载

Scaling 30 TB’s of Data Lake with Apache HBase and Scala DSL at Production 立即下载