开发者社区 问答 正文

mapreduce如何实现数据的去重?

mapreduce如何实现数据的去重?

展开
收起
芯在这 2021-12-05 21:44:37 355 分享 版权
1 条回答
写回答
取消 提交回答
  • 在map阶段,map方法的输出key也应该是数据,value 任意值都可以。而map的输入key和value 是已知的,key为每行文本首地址相对于整个文本首地址的偏移量,value 是每行文本,因此在map方法从输入到输出的过程中,只需要将输入的value 赋给输出的key即可。 在mapreduce整个框架下,在map输出和reduce输入之间还有一个shuffule过程,这个是系统自动完成的。

    2021-12-05 21:44:49
    赞同 展开评论