开发者社区> 问答> 正文

RDD的数据集与Partitions的关系有什么?

RDD的数据集与Partitions的关系有什么?

展开
收起
游客k7rjnht6hbtk6 2021-12-10 13:18:23 316 0
1 条回答
写回答
取消 提交回答
  • RDD是一个只读的有属性的数据集。属性用来描述当前数据集的状态,数据集是由数据的分区(partition)组成。 RDD 内部的数据集合在逻辑上和物理上被划分成多个小子集合,这样的每一个子集合我们将其称为分区(partitions),分区的个数会决定并行计算的粒度,而每一个分区数值的计算都是在一个单独的任务中进行,因此并行任务的个数,也是由 RDD分区的个数决定的。

    2021-12-10 13:18:41
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Adopting Dataframes and Parque 立即下载
低代码开发师(初级)实战教程 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载