开发者社区> 问答> 正文

partition和block有什么关联?

partition和block有什么关联?

展开
收起
xin在这 2021-12-07 22:08:12 246 0
1 条回答
写回答
取消 提交回答
  • hdfs中的block是分布式存储的最小单元,等分,可设置冗余,这样设计有一部分磁盘空间的浪费,但是整齐的block大小,便于快速找到、读取对应的内容

    Spark中的partition是RDD的最小单元,RDD是由分布在各个节点上的partition组成的。

    partition是指的spark在计算过程中,生成的数据在计算空间内最小单元 同一份数据(RDD)的partion大小不一,数量不定,是根据application里的算子和最初读入的数据分块数量决定

    block位于存储空间;partion位于计算空间,block的大小是固定的、partion大小是不固定的,是从2个不同的角度去看数据。

    2021-12-07 22:08:33
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
对 2000 多亿条数据做一次 group by 需要多久? 立即下载
对2000多亿条数据做一次Group By 需要多久 立即下载
Get rid of traditional ETL, Move to Spark! 立即下载