发送应用代码到服务器
监控任务处理的进度
把map产生的数据发给reduce
服务器之间的负债均衡
故障恢复
长尾任务处理
MapReduce对任务有限制
不能交互执行,没有状态
没有多级迭代,没有多级pipeline。而是一个mapReduce到另外一个MapReduce
不能进行实时流处理(现在已经有了,spark)
输入和输出文件是存储在GFS上的
MP需要巨大的输入和输出吞吐
GFS会把文件以64MB的chunk拆分到不同的服务器
Maps的读是并行
Reduces的写是并行
GFS 的文件副本会存储在2~3个服务器中
GFS是MapReduce成功的一大关键
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。