开发者社区> 问答> 正文

介绍一下cogroup rdd实现原理,你在什么场景下用过这个rdd?

介绍一下cogroup rdd实现原理,你在什么场景下用过这个rdd?

展开
收起
茶什i 2019-10-28 16:18:28 1939 0
1 条回答
写回答
取消 提交回答
  • 答:cogroup的函数实现:这个实现根据两个要进行合并的两个RDD操作,生成一个CoGroupedRDD的实例,这个RDD的返回结果是把相同的key中两个RDD分别进行合并操作,最后返回的RDD的value是一个Pair的实例,这个实例包含两个Iterable的值,第一个值表示的是RDD1中相同KEY的值,第二个值表示的是RDD2中相同key的值.由于做cogroup的操作,需要通过partitioner进行重新分区的操作,因此,执行这个流程时,需要执行一次shuffle的操作(如果要进行合并的两个RDD的都已经是shuffle后的rdd,同时他们对应的partitioner相同时,就不需要执行shuffle,), 场景:表关联查询

    2019-10-28 16:35:10
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
PyODPS架构以及DataFrame实现原理 立即下载
低代码开发师(初级)实战教程 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载