一个存疑的Hive Case——MapRedTask Slow

简介:

线上Hadoop做压缩格式更新,默认的从GZip转到Snappy,并重启了HDFS/MAPREDUCE集群,突然发现一个Hive Script Job从原来的12分钟缩短到4分钟并稳定跑了2天,并且该Job agent Server上的所有Hive Script Job的运行时间都缩短了;首先分析变更前后两天JobMAPREDUCE日志,发现MAPREDUCE只变快了4分钟(因为Snappy的低压缩比导致了增加了一个REDUCER而把一个最慢的step加快,该哭还是笑呢:P),另外那诡异的4分钟在哪里消失了呢?

对比了两天的Job运行日志发现变化之前每个Job Stage之间的时间间隔在30s+,而维护后这个时间在3s以内,第一反应就是怀疑是不是JobTracker的问题,在确认了从生成Job,提交JobJob完成的时间都是正常的,并且Job在准备文件的过程中对HDFS的操作也是确认正常,GC正常,排除掉JT的问题同时也排除了Namenode的问题;再进一步发现HiveMoveTask/Stats Task也是1s完成,掐头去尾后定位到是在MAPREDUCE已经被JobTracker确认完成后,但是Hiveblock了接近30s=10×(pullinterval+checkpollinterval))才确认完成!(counterplan在隔了30s才打印,也就是说runningJob isNotCompleted.

然后查看了其他的Hive agent Server的日志发现都一直正常,那么范围进一步缩小就是这台有问题,结合上面的分析有几点可能:

1.JTagent网络不稳定——是否调整过有待确认,不过查看sar无错误包等,流量正常,看MR源码waitingforComplete的interval默认是在5s,如果是网络问题应该retry了5,6次;

2.Hive所在服务器问题

3.Hive本身问题

对于2服务器本身的流量/IO/LOAD都不高,余量很充分,并且2无错误日志,找一台对比OS参数发现太多不一样的了()直接忽略掉,假设没问题,存疑;

对于3直接看Hive代码了,假设没1的问题,Hivepolltask的过程中有一个BugHIVE-4000),就是runningQueue不是线程安全的,可能导致racecondition进而会blockHive;并且从

context switch/sec

000430922.png

Interupted/sec:

000458508.png

上看确实维护后降低了,也就是Sleep时间(此处Hive代码注释错误,每2秒而不是10秒进行一次poll)降低了,但是如果是Bug那应该是随机的,为什么单单这一台在维护之前有问题,所以这个解释不通,那这个cs降低应该是“果”而不是“因”,因此最可能的还是12网络层面的问题

问题分析到这里虽然还没有一个完美的答案,但是还是暴露一些问题:比如参数不统一,比如一些不合理的设置和监控的缺失,不过对HIVE/MAPREDUCE/HDFS梳理更清晰了.经验值确实值1000了:)



本文转自MIKE老毕 51CTO博客,原文链接:http://blog.51cto.com/boylook/1303926,如需转载请自行联系原作者


相关文章
|
SQL 监控 数据可视化
DolphinScheduler教程(02)- 系统架构设计
DolphinScheduler教程(02)- 系统架构设计
1619 0
DolphinScheduler教程(02)- 系统架构设计
|
5天前
|
搜索推荐 编译器 Linux
一个可用于企业开发及通用跨平台的Makefile文件
一款适用于企业级开发的通用跨平台Makefile,支持C/C++混合编译、多目标输出(可执行文件、静态/动态库)、Release/Debug版本管理。配置简洁,仅需修改带`MF_CONFIGURE_`前缀的变量,支持脚本化配置与子Makefile管理,具备完善日志、错误提示和跨平台兼容性,附详细文档与示例,便于学习与集成。
309 116
|
20天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
7天前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本或视觉提示的统一图像视频分割模型,可精准分割“红色条纹伞”等开放词汇概念,覆盖400万独特概念,性能达人类水平75%–80%,推动视觉分割新突破。
505 45
Meta SAM3开源:让图像分割,听懂你的话
|
14天前
|
安全 Java Android开发
深度解析 Android 崩溃捕获原理及从崩溃到归因的闭环实践
崩溃堆栈全是 a.b.c?Native 错误查不到行号?本文详解 Android 崩溃采集全链路原理,教你如何把“天书”变“说明书”。RUM SDK 已支持一键接入。
697 222
|
2天前
|
Windows
dll错误修复 ,可指定下载dll,regsvr32等
dll错误修复 ,可指定下载dll,regsvr32等
137 95