开发者学堂课程【Hadoop 分布式计算框架 MapReduc:ReduceJoin 理论】学习
笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/94/detail/1544
ReduceJoin 理论
内容介绍
1.ReduceJoin 工作原理
l Map 端的主要工作
l Reduce 端的主要工作
1.ReduceJoin 工作原理
l Map 端的主要工作∶
为来自不同表或文件的 key/value 对,打标签以区别不同来源的记录。然后用连接字段作为 key,其余部分和新加的标志作为 value,最后进行输出。
l Reduce 端的主要工作:
在 Reduce 端以连接字段作为 key 的分组已经完成,我们只需要在每一个分组当中将那些来源w不同文件的记录(在 Map 阶段已经打标志分开,最后进行合并就 ok 了。