Hadoop运维操作

简介:

1.      处理hadoop的namenode宕机

处理措施:

进入hadoop的bin目录,重启namenode服务

操作命令:

cd path/to/hadoop/bin

./hadoop-daemon.sh start namenode

2.      处理hadoop的jobtacker宕机

处理措施:

进入hadoop的bin目录,重启jobtacker服务

操作命令:

cd path/to/hadoop/bin

./hadoop-daemon.sh start jobtracker

3.      处理hadoop的datanode宕机

处理措施:

进入hadoop的bin目录,重启datanode服务

操作命令:

cd path/to/hadoop/bin

./hadoop-daemon.sh start datanode

4.      处理hadoop的tasktracker宕机

处理措施:

进入hadoop的bin目录,重启tasktacker服务

操作命令:

cd path/to/hadoop/bin

./hadoop-daemon.sh start tasktracker

5.      启动hadoop集群

处理措施:

进入hadoop的bin目录,执行start-all.sh脚本

操作命令:

cd path/to/hadoop/bin

./start-all.sh

注意事项:

namenode在启动的时候首先进入安全模式,如果datanode丢失的block达到一定的比例(1- dfs.safemode.threshold.pct),则系统会一直处于安全模式状态即只读状态。 dfs.safemode.threshold.pct(缺省值0.999f)表示hdfs启动的时候,如果datanode上报的block个数达到了 元数据记录的block个数的0.999倍才可以离开安全模式,否则一直是这种只读模式。如果设为1则hdfs永远是处于safemode。

有两个方法离开这种安全模式

(1)修改dfs.safemode.threshold.pct为一个比较小的值,缺省是0.999。

(2)hadoop dfsadmin -safemode leave命令强制离开

用户可以通过dfsadmin -safemode $value来操作安全模式,参数$value的说明如下:

  • enter – 进入安全模式
  • leave – 强制namenode离开安全模式
  • get  – 返回安全模式是否开启的信息
  • wait – 等待,一直到安全模式结束。

6.      关闭hadoop机器

处理措施:

进入hadoop的bin目录,执行stop-all.sh脚本

操作命令:

cd path/to/hadoop/bin

./ stop-all.sh

7.      从hadoop移除机器

处理措施:

把需要移除的机器增加到exclueds文件中,强制刷新datanode列表,等待decommission 状态正常后,即可停机下架,如有必要在namenode执行balancer操作。

操作命令:

在master的conf/hdfs-site.xml中加入

<property>

<name>dfs.hosts.exclude</name>

<value>excludes</value>

 </property>

在$hadoop_home下创建exclueds文件

文件内容增加你想删除的节点的机器名,一行一个

/bin/hadoop dfsadmin -refreshnodes命令刷新datanode例表

/bin/hadoop dfsadmin -report查看结果

 

datanodes available: 1 (1 total, 0 dead)

 

name: 192.168.200.118:50010

decommission status : decommission in progress

configured capacity: 211370565632 (196.85 gb)

dfs used: 11459694592 (10.67 gb)

non dfs used: 187135799296 (174.28 gb)

dfs remaining: 12775071744(11.9 gb)

dfs used%: 5.42%

dfs remaining%: 6.04%

last contact: wed feb 22 23:51:48 pst 2012

在decommission status : decommission in progress变为 decommission status : decommission normal前mapreduce会异常增加节点

8.      向hadoop添加机器

处理措施:

把新机器的增加到conf/slaves文件中,重启datanode和jobtracker进程,当新添加的机器向namenode发送心跳信息后,namenode会自动感知新加入的机器,如果有必要可以做balancer操作。

操作命令:

1.把新机器的增加到conf/slaves文件中(datanode或者tasktracker crash则可跳过)

2.在新机器上进入hadoop安装目录

$bin/hadoop-daemon.sh start datanode

$bin/hadoop-daemon.sh start tasktracker

3.在namenode上

$bin/hadoop balancer

9.      杀死正在运行的job

操作命令:

bin/hadoop job –kill {job-id}

10.处理hbase的master宕机

操作命令:

./hbase-daemon.sh start master

./hbase-daemon.sh start zookeeper//可选

11.处理hbase的regionserver宕机

操作命令:

./hbase-daemon.sh start regionserver

./hbase-deamon.sh start zookeeper//可选

12.hbase集群间数据迁移方法总结

一、需要在hbase集群停掉的情况下迁移

步骤:

(1)执行hadoop distcp -f filelist "hdfs://new cluster ip:9000/hbasetest"

(2)在new cluster执行./hbase org.jruby.main add_table.rb /hbase/table20111222,将拷贝来的表加入到.meat.中(会出现region的数目不一致的问题,这个需要重启hase才能解决)

说明:(1)filelist为hdfs上的列表文件,内容如下:

        /hbase/table20111222

        /hbase/table20120131

       (2)如果两个集群的hadoop版本不一致,需要在new cluster上执行hadoop distcp,否则会出现读写异常;

二、在集群运行的时候进行数据迁移

1、replication:这个是动态的备份(可以理解为实时备份)

     步骤:(1)在old cluster将需要迁移的表属性进行修改:

               disable 'your_table'

              alter 'your_table', {name => 'family_name', replication_scope => '1'}

              enable 'your_table'

         (2)打开new cluster集群的replication,修改hbase-site.xml

            <property>

              <name>hbase.replication</name>

              <value>true</value>

            </property>

         (3)添加peer,在new cluster的hbase shell中执行:add_peer '1','old cluster ip:2181:/hbase',启动replication,执行start_replication

     说明:需要两个集群的hadoop版本一致,否则出现读写错误

 

2、copytable:可以在本集群中拷贝一张表,也可以将表拷贝到其他的集群中。

    命令:./hbase org.apache.hadoop.hbase.mapreduce.copytable --peer.adr=new cluster ip:2181:/hbase zy_test

    说明:(1)拷贝完成,不需要重启机器,在new cluster中就可以看到该表;

         (2)稳定性还需要考虑,测试过程中遇到一个问题

 

此文来自: 马开东博客 转载请注明出处 网址: http://www.makaidong.com

,拷贝过程中始终都停留在这里lookedup root region location, 查看日志没有什么错误和相关的信息。

 

 

3、export and import

    步骤:(1)在old cluster上执行:./hbase org.apache.hadoop.hbase.mapreduce.export test hdfs://new cluster ip:9000/zhuangyang/test

         (2)在new cluster上执行:./hbase org.apache.hadoop.hbase.mapreduce.import test hdfs://new cluster ip:9000/zhuangyang/test

    说明:(1)一定要写全路径,不能写相对路劲;

         (2)在import前,需要将表事先在new cluster中创建好.

 

以上都是在old cluster和new cluster网络相通的情况下实现数据迁移的办法。

如果两个集群网络不通,只能先将old cluster中的数据都下载到本地或者其他的地方,然后在人工的转移到new cluster上了

 

13.不重启namenode可以使配置文件生效

hadoop dfsadmin -refreshnodes

 

 

14.清空垃圾回收站

[root@master data]# hadoop fs -rmr .Trash 
Deleted hdfs://master:9000/user/root/.Trash

此文链接:http://www.makaidong.com/%E5%8D%9A%E5%AE%A2%E5%9B%AD%E6%8E%92%E8%A1%8C/9639.shtml

 

 本文转自茄子_2008博客园博客,原文链接:http://www.cnblogs.com/xd502djj/p/4675217.html,如需转载请自行联系原作者。


相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
&nbsp; 相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情:&nbsp;https://cn.aliyun.com/product/hbase &nbsp; ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库&nbsp;ECS 实例和一台目标数据库&nbsp;RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&amp;RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
运维 监控 固态存储
OBCP第八章 OB运维、监控与异常处理-日常运维操作
OBCP第八章 OB运维、监控与异常处理-日常运维操作
182 0
|
6月前
|
Java Shell 分布式数据库
【大数据技术Hadoop+Spark】HBase数据模型、Shell操作、Java API示例程序讲解(附源码 超详细)
【大数据技术Hadoop+Spark】HBase数据模型、Shell操作、Java API示例程序讲解(附源码 超详细)
157 0
|
6月前
|
分布式计算 大数据 Scala
【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战(超详细 附源码)
【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战(超详细 附源码)
302 1
|
4月前
|
分布式计算 运维 DataWorks
MaxCompute操作报错合集之用户已在DataWorks项目中,并有项目的开发和运维权限,下载数据时遇到报错,该如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
4月前
|
分布式计算 Hadoop 关系型数据库
实时计算 Flink版操作报错合集之Hadoop在将文件写入HDFS时,无法在所有指定的数据节点上进行复制,该如何解决
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
5月前
|
存储 运维 Java
Spring运维之boot项目开发关键之日志操作以及用文件记录日志
Spring运维之boot项目开发关键之日志操作以及用文件记录日志
63 2
|
4月前
|
测试技术 数据库 容器
开发与运维测试问题之操作数据库进行DAO层测试如何解决
开发与运维测试问题之操作数据库进行DAO层测试如何解决
|
5月前
|
SQL 运维 分布式计算
DataWorks操作报错合集之购买了独享的调度资源组,在运维界面批量修改调度资源组报错了,而且也没有资源组显示,是什么导致的
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
35 0
|
5月前
|
资源调度 分布式计算 Hadoop
实时计算 Flink版产品使用问题之yarn session模式中启动的任务链接是http IP,想把IP映射为主机hadoop,该怎么操作
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
6月前
|
分布式计算 Hadoop Linux
实验: 熟悉常用的Linux操作和Hadoop操作
实验: 熟悉常用的Linux操作和Hadoop操作
87 2
下一篇
无影云桌面