Hadoop shuffle的map端每一个maptask处理一个切片,生成的输出会经历什么过程?
1、每个map任务都有一个环形内存缓冲区用于存储输出
2、在写磁盘之前,线程首先根据数据最终要传送给的reducer把数据划分为相应的分区
3、每次内存缓冲区达到溢出阈值,就会新建一个溢出文件
4、在map任务完成之前,溢出文件被合并为一个已分区且已排序的输出文件
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。