Spark RDD是怎么容错的,基本原理是什么?-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

Spark RDD是怎么容错的,基本原理是什么?

2021-12-08 21:16:08 137 1

Spark RDD是怎么容错的,基本原理是什么?

取消 提交回答
全部回答(1)
  • 游客wyvq5mjsckydw
    2021-12-08 21:29:48

    一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。

    面向大规模数据分析,数据检查点操作成本很高,需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源。

    因此,Spark选择记录更新的方式。但是,如果更新粒度太细太多,那么记录更新成本也不低。因此,RDD只支持粗粒度转换,即只记录单个块上执行的单个操作,然后将创建RDD的一系列变换序列(每个RDD都包含了他是如何由其他RDD变换过来的以及如何重建某一块数据的信息。因此RDD的容错机制又称“血统(Lineage)”容错)记录下来,以便恢复丢失的分区。

    Lineage本质上很类似于数据库中的重做日志(Redo Log),只不过这个重做日志粒度很大,是对全局数据做同样的重做进而恢复数据。

    0 0
相关问答

1

回答

Spark RDD是具体怎么容错的,基本原理是什么?

2021-12-13 19:38:34 4277浏览量 回答数 1

1

回答

spark中的RDD的特性是什么?

2021-12-07 06:48:49 371浏览量 回答数 1

1

回答

spark中的RDD有什么特性?

2021-12-06 23:27:50 118浏览量 回答数 1

1

回答

Spark Streaming 原理是什么?

2022-01-13 15:54:26 1117浏览量 回答数 1

1

回答

Spark Streaming中的DStream的输出操作是什么?

2021-12-07 20:17:49 134浏览量 回答数 1

1

回答

Spark Streaming中的DStream的转化操作是什么?

2021-12-07 20:17:05 110浏览量 回答数 1

1

回答

spark streaming中的foreachRDD(func)方法是什么?

2021-12-07 08:05:05 290浏览量 回答数 1

1

回答

如何使用Spark Streaming SQL进行 PV/UV统计?

2020-12-28 11:38:30 483浏览量 回答数 1

1

回答

使用Spark Streaming SQL进行 PV/UV统计的准备工作?

2020-12-28 11:39:00 413浏览量 回答数 1

1

回答

spark streaming实时程序 进程总是运行三四个小时左右不知道原因挂掉

2019-12-20 21:25:15 871浏览量 回答数 1
0
文章
5315
问答
问答排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载