Hadoop常见错误1

简介: 1 关于 Warning: $HADOOP_HOME is deprecated.   hadoop 1.0.0版本,安装完之后敲入hadoop命令时,老是提示这个警告: Warning: $HADOOP_HOME is deprecated.   经查hadoop-1.0.0/bin/hadoop脚本和"hadoop-config.sh"脚本,发现脚本中对HADOOP_HOME的环境变量设置做了判断,笔者的环境根本不需要设置HADOOP_HOME环境变量。

1 关于 Warning: $HADOOP_HOME is deprecated.

  hadoop 1.0.0版本,安装完之后敲入hadoop命令时,是提示这个警告:

Warning: $HADOOP_HOME is deprecated.

  经查hadoop-1.0.0/bin/hadoop脚本和"hadoop-config.sh"脚本,发现脚本中对HADOOP_HOME的环境变量设置做了判断,笔者的环境根本不需要设置HADOOP_HOME环境变量。

  解决方案一:编辑"/etc/profile"文件,去掉HADOOP_HOME的变量设定,重新输入hadoop fs命令,警告消失。

  解决方案二:编辑"/etc/profile"文件,添加一个环境变量,之后警告消失:
       export HADOOP_HOME_WARN_SUPPRESS=1

   我们这里本着不动Hadoop原配置文件的前提下,采用"方案二",在"/etc/profile"文件添加上面内容,并用命令"source /etc/profile"使之有效。

  

2 解决"no datanode to stop"问题

  当我停止Hadoop时发现如下信息:

 

  原因:每次namenode format会重新创建一个namenodeId,而tmp/dfs/data下包含了上次format下的id,namenode format清空了namenode下的数据,但是没有清空datanode下的数据,导致启动时失败,所要做的就是每次fotmat前,清空tmp一下的所有目录。

  第一种解决方案如下:

  1)先删除"/usr/hadoop/tmp"

rm -rf /usr/hadoop/tmp

  2)创建"/usr/hadoop/tmp"文件夹

mkdir /usr/hadoop/tmp

  3)删除"/tmp"下以"hadoop"开头文件

rm -rf /tmp/hadoop*

  4)重新格式化hadoop

hadoop namenode -format

  5)启动hadoop

start-all.sh

  使用第一种方案,有种不好处就是原来集群上的重要数据全没有了。假如说Hadoop集群已经运行了一段时间。建议采用第二种。

  第二种方案如下:

  1)修改每个Slave的namespaceID使其与Master的namespaceID一致。

  或者

  2)修改Master的namespaceID使其与Slave的namespaceID一致。

 

  该"namespaceID"位于"/usr/hadoop/tmp/dfs/data/current/VERSION"文件中,前面蓝色的可能根据实际情况变化,但后面红色是不变的。

  例如:查看"Master"下的"VERSION"文件

  本人建议采用第二种,这样方便快捷,而且还能防止误删。


3 Slave服务器中datanode启动后又自动关闭

  查看日志发下如下错误。

  ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Call to ... failed on local exception: java.net.NoRouteToHostException: No route to host

  解决方案是:关闭防火墙

service iptables stop

4 从本地往hdfs文件系统上传文件

  出现如下错误:

  INFO hdfs.DFSClient: Exception in createBlockOutputStream java.io.IOException: Bad connect ack with firstBadLink

  INFO hdfs.DFSClient: Abandoning block blk_-1300529705803292651_37023

  WARN hdfs.DFSClient: DataStreamer Exception: java.io.IOException: Unable to create new block.

  解决方案是:

  1)关闭防火墙

service iptables stop

  2)禁用selinux

    编辑 "/etc/selinux/config"文件,设置"SELINUX=disabled"


5 安全模式导致的错误

  出现如下错误:

  org.apache.hadoop.dfs.SafeModeException: Cannot delete ..., Name node is in safe mode

  在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性,同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程中,系统启动的时候去修改和删除文件也会有安全模式不允许修改的出错提示,只需要等待一会儿即可。

  解决方案是:关闭安全模式

hadoop dfsadmin -safemode leave

6 解决Exceeded MAX_FAILED_UNIQUE_FETCHES

  出现错误如下:

  Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out

  程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。

  解决方案是:修改2个文件。

  1)"/etc/security/limits.conf"

vim /etc/security/limits.conf

  加上:

          soft nofile 102400

hard nofile 409600

  2)"/etc/pam.d/login"

vim /etc/pam.d/login

  添加:

session required /lib/security/pam_limits.so

  针对第一个问题我纠正下答案:

  这是reduce预处理阶段shuffle时获取已完成的map的输出失败次数超过上限造成的,上限默认为5。引起此问题的方式可能会有很多种,比如网络连接不正常,连接超时,带宽较差以及端口阻塞等。通常框架内网络情况较好是不会出现此错误的。

7 解决"Too many fetch-failures"

  出现这个问题主要是结点间的连通不够全面。

  解决方案是:

  1)检查"/etc/hosts"

  要求本机ip 对应 服务器名

  要求要包含所有的服务器ip +服务器名

  2)检查".ssh/authorized_keys"

  要求包含所有服务器(包括其自身)的public key

8 处理速度特别的慢

  出现map,但是reduce,而且反复出现"reduce=0%"。

  解决方案如下:

  结合解决方案5.7,然后修改"conf/hadoop-env.sh"中的"export HADOOP_HEAPSIZE=4000"

9解决hadoop OutOfMemoryError问题

  出现这种异常,明显是jvm内存不够得原因。

  解决方案如下:要修改所有的datanode的jvm内存大小。

Java –Xms 1024m -Xmx 4096m

  一般jvm的最大内存使用应该为总内存大小的一半,我们使用的8G内存,所以设置为4096m,这一值可能依旧不是最优的值。

10 Namenode in safe mode

  解决方案如下:

bin/hadoop dfsadmin -safemode leave

11 IO写操作出现问题

  0-1246359584298, infoPort=50075, ipcPort=50020):Got exception while serving blk_-5911099437886836280_1292 to /172.16.100.165:

  java.net.SocketTimeoutException: 480000 millis timeout while waiting for channel to be ready for write. ch : java.nio.channels.SocketChannel[connected local=/

  172.16.100.165:50010 remote=/172.16.100.165:50930]

  at org.apache.hadoop.net.SocketIOWithTimeout.waitForIO(SocketIOWithTimeout.java:185)

  at org.apache.hadoop.net.SocketOutputStream.waitForWritable(SocketOutputStream.java:159)

  ……

  It seems there are many reasons that it can timeout, the example given in HADOOP-3831 is a slow reading client.

    解决方案如下:

  在hadoop-site.xml中设置dfs.datanode.socket.write.timeout=0

12 status of 255 error

  错误类型:

  java.io.IOException: Task process exit with nonzero status of 255.

  at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:424)

  错误原因:

  Set mapred.jobtracker.retirejob.interval and mapred.userlog.retain.hours to higher value. By default, their values are 24 hours. These might be the reason for failure, though I'm not sure restart.

  解决方案如下:单个datanode

  如果一个datanode 出现问题,解决之后需要重新加入cluster而不重启cluster,方法如下:

bin/hadoop-daemon.sh start datanode

bin/hadoop-daemon.sh start jobtracker

目录
相关文章
|
分布式计算 资源调度 Hadoop
Hadoop常见错误及解决方案、Permission denied: user=dr.who, access=WRITE, inode=“/“:summer:supergroup:drwxr-xr-x
Hadoop常见错误及解决方案、Permission denied: user=dr.who, access=WRITE, inode=“/“:summer:supergroup:drwxr-xr-x
Hadoop常见错误及解决方案、Permission denied: user=dr.who, access=WRITE, inode=“/“:summer:supergroup:drwxr-xr-x
|
分布式计算 Hadoop
hadoop初学者MapReduce常见错误
image.png 主机与ip地址的映射,不可以出错配置完后hostname一下 image.png core-site.xml 正确配置 fs.
840 0
|
分布式计算 安全 Hadoop
|
分布式计算 监控 Java
|
分布式计算 Java Hadoop
hadoop-HA集群搭建,启动DataNode,检测启动状态,执行HDFS命令,启动YARN,HDFS权限配置,C++客户端编程,常见错误
本篇博文为整理网络上Hadoop-HA搭建后出来的博客,参考网址为:http://blog.chinaunix.net/uid-196700-id-5751309.html 3. 部署 3.1. 机器列表 共5台机器(zookeeper部署在这5台机器上),部署如下表所示: NameNode JournalNode DataNode ZooKeeper 192.168.106
8064 0
|
分布式计算 Java Hadoop
Hadoop-2.8.0集群搭建、hadoop源码编译和安装、host配置、ssh免密登录、hadoop配置文件中的参数配置参数总结、hadoop集群测试,安装过程中的常见错误
25. 集群搭建 25.1 HADOOP集群搭建 25.1.1集群简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HDFS集群: 负责海量数据的存储,集群中的角色主要有NameNode / DataNode YARN集群: 负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManag
4746 0
|
分布式计算 Hadoop 网络安全
Hadoop - Mac OSX下配置和启动hadoop以及常见错误解决
0. 安装JDK 参考网上教程在OSX下安装jdk   1. 下载及安装hadoop a) 下载地址: http://hadoop.apache.org   b) 配置ssh环境 在terminal里面输入: ssh localhost 如果有错误提示信息,表示当前用户没有权限。
1703 0
|
Java 容器 安全
Hadoop常见错误2
问题1:在程序的日志中看到,在reduce阶段出现了异常:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out ,程序里需要打开文件,系统默认为1024,也可以通过ulimit -a查看 编辑文件/etc/security/limits.
1117 0
|
分布式计算 Hadoop Java
hadoop 集群常见错误解决办法
<p style="line-height:27.2px; color:rgb(51,51,51); font-family:Helvetica,Arial,sans-serif; font-size:14px"> <a target="_blank" rel="nofollow" class="ui-link" style="outline:none; color:rgb(36,137
3467 0
|
1月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
129 6