——更轻松、更高效的MapReduce并行分析模式
MapReduce 是 2004年由Google开发的分散式数据处理模型。 MapReduce 的基本设计理念是把 问题分成两个部分:1)将源数据转换成充分统计数据的映射函数;2)将所有充分统计数据合并为最终答 案的化简函数。通过定义,所有并行映射函数可同时运行且不会相互影响。一旦使用映射函数运算所有数 据,就可结合映射阶段的结果进行化简函数运算。对于网页搜索分析方案中常见的大规模批量处理和高速数据检索,MapReduce 能够提供最快速、最 节省且最大规模的数据返回程序。当今,大部分“大规模数据”先进管理技术是基于MapReduce研发的。