开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

Data Lake Iceberg不同点有什么?

Data Lake Iceberg不同点有什么? 求大佬解答

展开
收起
爱吃鱼的程序员 2020-12-28 11:24:30 711 0
1 条回答
写回答
取消 提交回答
  • https://developer.aliyun.com/profile/5yerqm5bn5yqg?spm=a2c6h.12873639.0.0.6eae304abcjaIB

    Iceberg没有类似的HoodieKey设计,其不强调主键。上文已经说到,没有主键,做update/delete/merge等操作就要通过Join来实现,而Join需要有一个类似SQL的执行引擎。Iceberg并不绑定某个引擎,也没有自己的引擎,所以Iceberg并不支持update/delete/merge。如果用户需要update数据,最好的方法就是找出哪些partition需要更新,然后通过overwrite的方式重写数据。Iceberg官网提供的quickstart以及Spark的接口均只是提到了使用SparkdataframeAPI向Iceberg写数据的方式,没有提及别的数据摄入方法。至于使用SparkStreaming写入,代码中是实现了相应的StreamWriteSupport,应该是支持流式写入,但是貌似官网并未明确提及这一点。支持流式写入意味着有小文件问题,对于怎么合并小文件,官网也未提及。我怀疑对于流式写入和小文件合并,可能Iceberg还没有很好的生产ready,因而没有提及(纯属个人猜测)。

    2020-12-28 12:00:10
    赞同 展开评论 打赏

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

相关电子书

更多
Blink_Data_Lake 立即下载
Scaling 30 TB\'s of Data lake with Apache HBase and Scala DSL at Production 立即下载
Scaling 30 TB’s of Data Lake with Apache HBase and Scala DSL at Production 立即下载