开发者学堂课程【Hadoop 分布式计算框架 MapReduc:MapReduce 优缺点】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/94/detail/1476
MapReduce 优缺点
内容简介:
一、MapReduce 优点
二、MapReduce 缺点
一、MapReduce 优点
1、MapReduce 易于编程
它简单的实现一些端口,就可以完成一个分布程序,这个分布程序可以分不到大量廉价的 PC 机器上运行,也就是说用户写一个分布式程序跟写一个简单的串行程序是一模一样的,就是因为这个特点使得 MapReduce 编程编的非常流行。
一般在企业的项目启动之前技术部们会讨论是用什么来构建基础框架更适用于该项目。
2、良好的扩展性
当用户的计算资源不能得到满足的时候,用户就可以通过简单的增加机器来扩展它的计算能力。
3、高容错性
MapReduce 设计的初衷就是使程序能够部署在廉价的 PC 机器上,这就要求它具有很高的容错性。
比如其中一台机器挂了,它可以把上面的计算任务转移到另外一个节点上运行,不至于这个任务运行失败,而且这个过程不需要人工参与,而完全是由 Hadoop 内部完成的。
4、适合 PB 级以上海量数据的离线处理
可以实现上千台服务器集群并开发工作,提供数据处理能力。
二、MapReduce 缺点
1、不擅长实时计算
MapReduce 无法像 MySQL 一样,在毫秒或者秒级内返回结果。
2、不擅长流式计算
流式计算的输入数据是动态的,而 MapReduce 的输入数据集是静态的,不能动态变化。这是因为 MapReduce 自身的设计特点决定了数据源必须是静态的。
3、不擅长 DAG (有向图)计算
多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出。在这种情况下, MapReduce 并不是不能做,而是使用后,每个 MapReduce 作业的输出结果都会写入到磁盘,会造成大量的磁盘 IO,导致性能非常的低下。