开发者社区> 问答> 正文

spark中的partition和block的关联具体是什么啊?

spark中的partition和block的关联具体是什么啊?

展开
收起
游客vwuxaq6iqaowc 2021-12-06 21:15:27 285 0
1 条回答
写回答
取消 提交回答
  • hdfs中的block是分布式存储的最小单元,等分,可设置冗余,这样设计有一部分磁盘空间的浪费,但是整齐的block大小,便于快速找到、读取对应的内容 Spark中的partition是RDD的最小单元,RDD是由分布在各个节点上的partition组成的。 partition是指的spark在计算过程中,生成的数据在计算空间内最小单元 同一份数据(RDD)的partion大小不一,数量不定,是根据application里的算子和最初读入的数据分块数量决定 block位于存储空间;partion位于计算空间,block的大小是固定的、partion大小是不固定的,是从2个不同的角度去看数据。

    2021-12-06 21:15:42
    赞同 展开评论 打赏
问答分类:
问答标签:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载