文档备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 正文

为什么Spark访问OSS一致性难保证？

为什么Spark访问OSS一致性难保证？

展开

收起

zxynnn 2022-05-10 12:09:52 1106 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客6lve7fjcitvo6

FileFormat v1算法中，合并文件树操作全部在AppMaster单点执行，效率非常低，尤其是动态分区场景。为了解决AppMaster单点，社区提供了算法2，其核心思路是将合并过程并行到Task中执行，在性能上会有一定的提高，但是，如果Job执行失败，部分成功的Task会将数据写入最终数据目录，导致脏数据问题。

2022-05-10 13:04:36

赞同展开评论

问答分类：

分布式计算对象存储 Spark 对象存储开源大数据平台 E-MapReduce

问答标签：

访问对象存储对象存储访问 apache spark OSS spark对象存储 apache spark访问

问答地址：

开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 问答

相关问答

Dataworks 里的 ODPS spark 节点访问不到 maxcompute 里的表

230

1

0

云数据仓库ADB Spark SQL访问MaxCompute数据源-支持的库表操作

261

1

0

大数据计算MaxCompute 想申请加到spark公网访问白名单，可以从哪边申请？

231

1

0

spark 写入oss-hdfs任务，spark客户端一直在等待，如何解决？

290

1

0

云数据仓库ADB Spark SQL访问OSS外表-（可选）步骤五：删除外表

216

1

0

Apache Spark Streaming 如何处理端到端一致性和时间事件的支持？

248

1

0

Maxcompute spark访问oss对象存储是否可以走ENI方式

184

1

0

DMS任务编排跨库Spark SQL节点是否支持将数据导出到OSS单个文件

164

1

0

EMR on ACK的spark组件是否支持编程访问日志服务和VPC内的Redis和MongoDB

212

1

0

Spark SQL如何实现访问E-MapReduce HBase组件

194

1

0

大数据与机器学习

开源大数据平台 E-MapReduce

阿里云EMR是云原生开源大数据平台，为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎，计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

我要提问

相关文章

基于 DataWorks AI 助理备份实例日志到 OSS 文件系统

阿里云云盒对接使用全流程实战指南：从部署规划到SDK开发集成

阿里云ECS服务器数据备份与快照恢复完全指南

阿里云数据总线DataHub深度对接实战指南：从入门到生产级管道构建

2026年企业上云热门阿里云产品与活动指南：省钱攻略全解析

相关解决方案

更多

基于 Spark 和 PyTorch 的模型训练方案

ECS 数据备份与保护

声音克隆：定制你的专属声线

文件下载加速及成本优化

基于 Hologres 的广告创投一体化

热门讨论

热门文章

我想1159087087316311这个国内站账户适用EMR Notebook和Workflow服

分区删除后回收站的数据已经超过了设置的24小时，一直没有清理是什么原因？

有大佬在阿里云E-MapReduce线上用过Flink cdc CDAS 同步数据到SR的吗？

请教下EMR的DataLake集群，如果我自己装Zeppelin和Hue，会有兼容性问题么

阿里云E-MapReduce我如果把roll的参数调小点，就可以切分均匀，日志有大量的这个，正常吗？

阿里云E-MapReduce在 SPARK 任務在不知道 EMR master ip addres

有requestId吗？

Emr 自选的hive ，spark 版本兼容吗

阿里云E-MapReduce这个授权总是过不去怎么办？

Delta Lake 表如何删除操作？

展开全部

分布式快照算法: Chandy-Lamport

现代流式计算的基石：Google DataFlow

JindoFS: 云上大数据的高性能数据湖存储方案

JindoFS概述：云原生的大数据计算存储分离方案

玩转阿里云EMR三部曲-中级篇集成自有服务

从数砖开源 Delta Lake 说起

Apache Spark 3.0 将内置支持 GPU 调度

钉钉群直播【Spark Relational Cache 原理和实践】

使用Hive进行OSS数据处理的一个最佳实践

E-MapReduce的HBase集群使用Hue

展开全部

还有其他疑问?