Hadoop2.X另外1个重要组件就是MapReduce,Hadoop 1.X 生态几乎是**以 MapReduce为核心**的。
- MapReduce(Map 和 Reduce 分布式运算编程框架):MapReduce是一种计算模型,于大规模数据集(大于1TB)的并行计算。
- “Map”对数据集上的独立元素进行指定的操作,生成**键值对**(例如:手机通讯录中,键:小明,值:13333333333(小明号码),这就是所谓键值对,不要想太复杂了)形式中间结果;
- “Reduce”则对之间结果中相同“键”的所有“值”进行规约,以得到最终结果。