为什么Spark访问OSS一致性难保证?

为什么Spark访问OSS一致性难保证?

展开
收起
zxynnn 2022-05-10 12:09:52 987 分享 版权
1 条回答
写回答
取消 提交回答
  • FileFormat v1算法中,合并文件树操作全部在AppMaster单点执行,效率非常低,尤其是动态分区场景。为了解决AppMaster单点,社区提供了算法2,其核心思路是将合并过程并行到Task中执行,在性能上会有一定的提高,但是,如果Job执行失败,部分成功的Task会将数据写入最终数据目录,导致脏数据问题。

    2022-05-10 13:04:36
    赞同 展开评论

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

还有其他疑问?
咨询AI助理