开发者社区> 问答> 正文

mapreduce如何实现数据的去重?

mapreduce如何实现数据的去重?

展开
收起
xin在这 2021-12-05 21:44:37 314 0
1 条回答
写回答
取消 提交回答
  • 在map阶段,map方法的输出key也应该是数据,value 任意值都可以。而map的输入key和value 是已知的,key为每行文本首地址相对于整个文本首地址的偏移量,value 是每行文本,因此在map方法从输入到输出的过程中,只需要将输入的value 赋给输出的key即可。 在mapreduce整个框架下,在map输出和reduce输入之间还有一个shuffule过程,这个是系统自动完成的。

    2021-12-05 21:44:49
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Apache Flink 流式应用中状态的数据结构定义升级 立即下载
HBase Rowkey设计要点 立即下载
HBase2.0重新定义小对象实时存取 立即下载