hadoop初探--性能分析2

简介:

5h42min??12G的600万行的表,怎么会需要近6个小时才能计算完行数??MapReduce不是号称是云计算的基石么?性能怎会如此之差?

经过分析,发现12G的这个“TestTable”表的数据在4个节点是如下分布的。可以看到DataNode1的数据量有2.3G,虽然比DataNode3和DataNode4数据量小,但是由于DataNode1是vm,其所依赖的ESXI总共才8G内存(ESXI总共运行5台虚拟机),所以虽然号称是4G内存,但是根本就分不到4G的内存。这4G内存很大一部分使用的是ESSI kernel为其划分的Swap空间。

clip_image002

而经过观察发现,Task attempt_201110251718_0001_m_000014_0 failed to report status for 602 seconds. Killing! 的信息都出现在DataNode1上面。监控DataNode1的性能,发现如下所示,负载高达10,已经严重超过此虚拟机的load上限。

clip_image004

利用Ganglia监控Cluster的性能,可以看到如下图

clip_image006

下面两个图分布是上图的datanode1 memory last hour和datanode1 cpu last hour

clip_image008

上图可以发现datanode1已经在使用系统的swap分区

clip_image010

上图可以发现datanode1的cpu 使用率很高(蓝色区域是用户使用的,黄色是Nice,红色是系统使用的,橙色是wait),而idle已经不足5%了

2台虚拟机+2台物理机,物理机配置也不算太差,但是计算结果怎么会如此之差?经过查阅,发现hadoop的官网有这么一句话,

   The short answer is dual processor/dual core machines with 4-8GB of RAM using ECC memory, depending upon workflow needs。这就是它的建议配置,双核cpu,4-8G内存。

 

后记:在这个实验的第二天,我又加了一台2cpu,2G内存的物理机,总共5台节点,计算下来,总共耗时4h20min。抛开性能数据不说,可以看到确实随着节点的增加,计算速度也是增长的。

ps:测试部的同事他使用test程序,运算1200万行的一个表,总共耗时12min。但是他的hadoop环境配置都是实体机,但并不是服务器。





本文转自 taojin1240 51CTO博客,原文链接:http://blog.51cto.com/taotao1240/698504,如需转载请自行联系原作者

目录
相关文章
|
分布式计算 Java Hadoop
|
10月前
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
549 79
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
552 6
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
325 2
|
存储 分布式计算 大数据
Flume+Hadoop:打造你的大数据处理流水线
本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统(HDFS)。Flume是一个高可用、可靠的分布式系统,适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程,并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时,还提供了验证步骤,确保数据成功上传。最后,补充说明了使用文件模式作为channel以避免数据丢失的方法。
743 4
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
606 2
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
511 1
|
存储 分布式计算 资源调度
两万字长文向你解密大数据组件 Hadoop
两万字长文向你解密大数据组件 Hadoop
651 11
|
存储 分布式计算 资源调度
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
297 5
|
资源调度 数据可视化 大数据
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
187 4

相关实验场景

更多