CDH: unable to create new native thread

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 发现问题CDH-4.7.1 NameNode is down启动NameNode报错如下,无法创建新的线程,可能是使用的线程数超过max user processes设定的阈值2018-08-26 08:44:00,532 INFO org.

发现问题

CDH-4.7.1 NameNode is down

启动NameNode报错如下,无法创建新的线程,可能是使用的线程数超过max user processes设定的阈值

2018-08-26 08:44:00,532 INFO org.apache.hadoop.http.HttpServer: Jetty bound to port 50070
2018-08-26 08:44:00,532 INFO org.mortbay.log: jetty-6.1.26.cloudera.4
2018-08-26 08:44:00,773 WARN org.apache.hadoop.security.authentication.server.AuthenticationFilter: 'signature.secret' configuration not set, using a random value as secret
2018-08-26 08:44:00,812 INFO org.mortbay.log: Started SelectChannelConnector@alish1-dataservice-01.mypna.cn:50070
2018-08-26 08:44:00,813 INFO org.apache.hadoop.hdfs.server.namenode.NameNode: Web-server up at: alish1-dataservice-01.mypna.cn:50070
2018-08-26 08:44:00,814 INFO org.apache.hadoop.ipc.Server: IPC Server Responder: starting
2018-08-26 08:44:00,815 INFO org.apache.hadoop.ipc.Server: IPC Server listener on 8020: starting
2018-08-26 08:44:00,828 INFO org.apache.hadoop.ipc.Server: IPC Server Responder: starting
2018-08-26 08:44:00,828 INFO org.apache.hadoop.ipc.Server: IPC Server listener on 8022: starting
2018-08-26 08:44:00,839 FATAL org.apache.hadoop.hdfs.server.namenode.NameNode: Exception in namenode join
java.lang.OutOfMemoryError: unable to create new native thread
at java.lang.Thread.start0(Native Method)
at java.lang.Thread.start(Thread.java:714)
at org.apache.hadoop.ipc.Server.start(Server.java:2057)
at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.start(NameNodeRpcServer.java:303)
at org.apache.hadoop.hdfs.server.namenode.NameNode.startCommonServices(NameNode.java:497)
at org.apache.hadoop.hdfs.server.namenode.NameNode.initialize(NameNode.java:459)
at org.apache.hadoop.hdfs.server.namenode.NameNode.(NameNode.java:621)
at org.apache.hadoop.hdfs.server.namenode.NameNode.(NameNode.java:606)
at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1177)
at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1241)
2018-08-26 08:44:00,851 INFO org.apache.hadoop.util.ExitUtil: Exiting with status 1


日志内容如下,检查DNS没有问题,这里没有太多参考意义

#cat /var/log/cloudera-scm-agent/cloudera-scm-agent.log
[26/Aug/2018 07:30:23 +0000] 4589 MainThread agent        INFO     PID '19586' associated with process '1724-hdfs-NAMENODE' with payload 'processname:1724-hdfs-NAMENODE groupname:1724-hdfs-NAMENODE from_state:RUNNING expected:0 pid:19586' exited unexpectedly
[26/Aug/2018 07:45:06 +0000] 4589 Monitor-HostMonitor throttling_logger ERROR    (29 skipped) Failed to collect java-based DNS names
Traceback (most recent call last):
  File "/usr/lib64/cmf/agent/src/cmf/monitor/host/dns_names.py", line 53, in collect
    result, stdout, stderr = self._subprocess_with_timeout(args, self._poll_timeout)
  File "/usr/lib64/cmf/agent/src/cmf/monitor/host/dns_names.py", line 42, in _subprocess_with_timeout
    return subprocess_with_timeout(args, timeout)
  File "/usr/lib64/cmf/agent/src/cmf/monitor/host/subprocess_timeout.py", line 40, in subprocess_with_timeout
    close_fds=True)
  File "/usr/lib64/python2.6/subprocess.py", line 642, in __init__
    errread, errwrite)
  File "/usr/lib64/python2.6/subprocess.py", line 1234, in _execute_child
    child_exception = pickle.loads(data)
OSError: [Errno 2] No such file or directory



故障排查

这里设置的max user processes为65535已经非常大了,一般来说是达不到这个瓶颈的

# ulimit -a
core file size          (blocks, -c) 0
data seg size           (kbytes, -d) unlimited
scheduling priority             (-e) 0
file size               (blocks, -f) unlimited
pending signals                 (-i) 127452
max locked memory       (kbytes, -l) 64
max memory size         (kbytes, -m) unlimited
open files                      (-n) 65535
pipe size            (512 bytes, -p) 8
POSIX message queues     (bytes, -q) 819200
real-time priority              (-r) 0
stack size              (kbytes, -s) 10240
cpu time               (seconds, -t) unlimited
max user processes              (-u) 65535
virtual memory          (kbytes, -v) unlimited
file locks                      (-x) unlimited


现在系统的总进程数仅仅一百多个,我们要检查每个进程对应有多少个线程

# ps -ef|wc -l

169


已知这台服务器上主要跑的是java进程,所以重点查看java进程对应的线程数,找到30315这个进程对应约32110个线程,在加上其他进程和线程数,总数超过65535,NameNode无法在申请到多余的线程,所以报错

# pgrep java

1680

5482

19662

28770

30315

35902


# for i in `pgrep java`; do ps -T -p $i |wc -l; done

15

49

30

53

32110

114


#  ps -T -p 30315|wc -l

32110


或者通过top -H 命令查看

# top -H

top - 10:44:58 up 779 days, 19:34,  3 users,  load average: 0.01, 0.05, 0.05

Tasks: 32621 total,   1 running, 32620 sleeping,   0 stopped,   0 zombie

Cpu(s):  2.8%us,  4.1%sy,  0.0%ni, 93.1%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st

Mem:  16334284k total, 15879392k used,   454892k free,   381132k buffers

Swap:  4194296k total,        0k used,  4194296k free,  8304400k cached


解决方法

找到了问题的原因,我们可以重新设定max user processes的值为100000,再次启动NameNode成功

#echo "100000" > /proc/sys/kernel/threads-max

#echo "100000" > /proc/sys/kernel/pid_max     (默认32768)

#echo "200000" > /proc/sys/vm/max_map_count   (默认65530)


#vim /etc/security/limits.d/90-nproc.conf

* soft nproc unlimited

root soft nproc unlimited


#vim /etc/security/limits.conf

* soft nofile 65535

* hard nofile 65535

* hard nproc 100000

* soft nproc 100000


# ulimit -u

100000


目录
相关文章
|
Java Windows
OutOfMemoryError系列(5): Unable to create new native thread
这是本系列的第五篇文章, 相关文章列表: OutOfMemoryError系列(1): Java heap space OutOfMemoryError系列(2): GC overhead limit exceeded OutOfMemoryError系列(3): Permgen space OutOfMemoryError系列(4): Metaspace Java程序本质上是多线程的, 可以同时执行多项任务。
2233 0
|
Java Android开发
failed to create the java virtual machine
解决方法: 寻找eclipse解压路径下的eclipse.ini文件,使用写字板打开,将第10行和第14行的数据:原来位256,修改为128。即可!   解释原因: 虚拟机为java永久生成对象(Permanate generation)如,class对象、方法对象这些可反射(reflect...
651 0
|
安全 Java Linux
记录unable to create new native thread 问题排查解决
解决 java.lang.OutOfMemoryError: unable to create new native thread
1569 1
记录unable to create new native thread 问题排查解决
|
Java Android开发 计算机视觉
错误:Failed to create the Java Virtual Machine
引用:http://apps.hi.baidu.com/share/detail/30819988 以前用的eclipse-jee因为在部署项目过程中总是出现bug被我删除。今天去eclipse官网又下了一个Eclipse IDE For Java EE Developers。
988 0
|
8月前
|
Python
【Python3报错】Fatal error in launcher: Unable to create process using ……
【Python3报错】Fatal error in launcher: Unable to create process using ……
117 1
|
SQL HIVE
FAILED: Hive Internal Error: java.lang.RuntimeException(Error while making MR scratch directory异常的解决
<div style="color:rgb(51,51,51); font-family:Arial; font-size:14px; line-height:26px"> hive&gt; select * from dummy;</div> <div style="color:rgb(51,51,51); font-family:Arial; font-size:14px; lin
1639 0
|
分布式计算 Hadoop
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platfo
安装 hadoop 2.4.1 报错信息 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform.
1495 0

热门文章

最新文章