HiveServer2 ZooKeeper 连接泄漏-阿里云开发者社区

HiveServer2 ZooKeeper 连接泄漏

2017-11-14 1719

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生网关 MSE Higress，422元/月

注册配置 MSE Nacos/ZooKeeper，118元/月

服务治理 MSE Sentinel/OpenSergo，Agent数量不受限

简介：

昨天线上ETLJob突然挂起，查看Hive Log异常：

[ERROR]:Utils - FAILED: Error in acquiring locks: Locks on the underlying objectscannot be acquired. retry after some time

WARNunexpected error, closing socket connection and attempting reconnectjava.io.IOException: Connection reset by peer

一看是获取锁失败，关于Hive获取锁的流程简析：

http://boylook.blog.51cto.com/7934327/1308139

在看ZK发现从这台Agent到ZK的连接已经超过maxClientCnxns了，立刻先把ZK增加问题得到缓解，然后开始找RC：

出现问题的前一天修改了hive.lock.sleep.between.retries到5s，是不是和这个有关系呢？每次ZKLockManager在retry前会执行prepareretry，主要是检查前一个zk连接是否超时，如果没有继续用这个连接否则new一个zk连接，因此问题不应该是这里.

再看出问题的Client上主要跑了ETL agent和hiveserver2，发现连接都是从hiveserver2上来的，怀疑是不是因为默认的maxWorkerThreads略大了，不过worker和zk的连接无关，只是决定了ThreadPoolExecutor的线程数，看hiveserver部分代码最终与ZK交互的执行层面是OperationHandle，进而就是大家都熟悉的Driver run方法了，到这里基本上才开始进行SQL的解析运行，包括锁的处理.

而我们使用的是CDH4.2.0，这里有一个OperationHandle 资源泄露进而导致到ZK连接泄漏的一个Bug：

https://issues.cloudera.org/browse/DISTRO-512?page=com.atlassian.jira.plugin.system.issuetabpanels%3Aall-tabpanel#issue-tabs–> HIVE-4398，在Hive0.11已经修复

本文转自MIKE老毕 51CTO博客，原文链接：http://blog.51cto.com/boylook/1315751，如需转载请自行联系原作者

HiveServer2 ZooKeeper 连接泄漏

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

HiveServer2 ZooKeeper 连接泄漏

热门文章

最新文章

相关课程

相关电子书

相关实验场景