开发者社区 问答 正文

介绍parition和block有什么关联关系?

介绍parition和block有什么关联关系?

展开
收起
茶什i 2019-10-29 10:58:04 1531 分享 版权
1 条回答
写回答
取消 提交回答
  • 1)hdfs中的block是分布式存储的最小单元,等分,可设置冗余,这样设计有一部分磁盘空间的浪费,但是整齐的block大小,便于快速找到、读取对应的内容;2)Spark中的partion是弹性分布式数据集RDD的最小单元,RDD是由分布在各个节点上的partion组成的。partion是指的spark在计算过程中,生成的数据在计算空间内最小单元,同一份数据(RDD)的partion大小不一,数量不定,是根据application里的算子和最初读入的数据分块数量决定;3)block位于存储空间、partion位于计算空间,block的大小是固定的、partion大小是不固定的,是从2个不同的角度去看数据。

    2019-10-30 14:48:59
    赞同 展开评论
问答地址: