主要分为八个步骤
对文件进行切片,提前想好块的大小如何分配 启动相应数量的 maptask 进程 调用 FileInputFormat 中的 RecordReader,读一行数据并封装为 k1v1 调用自定义的 map 函数,并将 k1v1 传给 map,一个任务对应一个 map 收集 map 的输出,进行分区和排序,这块要注意优化。 reduce task 任务启动,并从 map 端拉取数据 reduce task 调用自定义的 reduce 函数进行处理 调用 outputformat 的 recordwriter 将结果数据输出
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。