HBase启动时有进程webUI不显示HRegionServer各种情况解决方案

本文涉及的产品
云原生网关 MSE Higress,422元/月
注册配置 MSE Nacos/ZooKeeper,118元/月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: HBase启动时有进程webUI不显示HRegionServer各种情况解决方案

1 Hmaster主机观察是否有闪退

java.lang.IllegalStateException: The procedure WAL relies on the ability to hsync for proper operation during component failures, but the underlying filesystem does not support doing so. Please check the config value of 'hbase.procedure.store.wal.use.hsync' to set the desired level of robustness and ensure the config value of 'hbase.wal.dir' points to a FileSystem mount that can provide it.

61f6a3015d4346e2b7e00f8b1d6c2cb8.png

2021-10-31 20:57:24,325 INFO  [Thread-14] procedure2.ProcedureExecutor: Starting 16 core workers (bigger of cpus/4 or 16) with max (burst) worker count=160, start 1 urgent thread(s)
2021-10-31 20:57:24,334 INFO  [Thread-14] util.FSHDFSUtils: Recover lease on dfs file hdfs://master:9000/hbase/MasterProcWALs/pv2-00000000000000000009.log
2021-10-31 20:57:24,337 INFO  [Thread-14] util.FSHDFSUtils: Recovered lease, attempt=0 on file=hdfs://master:9000/hbase/MasterProcWALs/pv2-00000000000000000009.log after 3ms
2021-10-31 20:57:24,338 WARN  [Thread-14] wal.WALProcedureStore: Remove uninitialized log: FileStatus{path=hdfs://master:9000/hbase/MasterProcWALs/pv2-00000000000000000009.log; isDirectory=false; length=0; replication=1; blocksize=134217728; modification_time=1635739004822; access_time=1635739001651; owner=csu; group=supergroup; permission=rw-r--r--; isSymlink=false}
2021-10-31 20:57:24,338 INFO  [Thread-14] wal.ProcedureWALFile: Archiving hdfs://master:9000/hbase/MasterProcWALs/pv2-00000000000000000009.log to hdfs://master:9000/hbase/oldWALs/pv2-00000000000000000009.log
2021-10-31 20:57:24,356 ERROR [Thread-14] master.HMaster: Failed to become active master
java.lang.IllegalStateException: The procedure WAL relies on the ability to hsync for proper operation during component failures, but the underlying filesystem does not support doing so. Please check the config value of 'hbase.procedure.store.wal.use.hsync' to set the desired level of robustness and ensure the config value of 'hbase.wal.dir' points to a FileSystem mount that can provide it.
  at org.apache.hadoop.hbase.procedure2.store.wal.WALProcedureStore.rollWriter(WALProcedureStore.java:1083)
  at org.apache.hadoop.hbase.procedure2.store.wal.WALProcedureStore.recoverLease(WALProcedureStore.java:421)
  at org.apache.hadoop.hbase.procedure2.ProcedureExecutor.init(ProcedureExecutor.java:611)
  at org.apache.hadoop.hbase.master.HMaster.createProcedureExecutor(HMaster.java:1407)
  at org.apache.hadoop.hbase.master.HMaster.finishActiveMasterInitialization(HMaster.java:859)
  at org.apache.hadoop.hbase.master.HMaster.startActiveMasterManager(HMaster.java:2234)
  at org.apache.hadoop.hbase.master.HMaster.lambda$run$0(HMaster.java:567)
  at java.lang.Thread.run(Thread.java:748)

解决方法1:

hbase-site.xml增加配置 关闭安全模式

<property>
  <name>hbase.unsafe.stream.capability.enforce</name>
  <value>false</value>
</property>

解决方法2:

hadoop进入安全模式了,hadoop dfsadmin -safemode leave用这个命令离开安全模式就可以了。

2 检查zookeeper的集群中的主机名保持跟hosts文件的ip映射名一致

日志报错:

2021-10-31 17:48:24,229 INFO  [main-SendThread(master:2181)] zookeeper.ClientCnxn: Opening socket connection to server master/192.168.99.129:2181. Will not attempt to authenticate using SASL (unknown error)
2021-10-31 17:48:24,235 WARN  [main-SendThread(master:2181)] zookeeper.ClientCnxn: Session 0x0 for server null, unexpected error, closing socket connection and attempting reconnect
java.net.ConnectException: Connection refused
  at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)
  at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:717)
  at org.apache.zookeeper.ClientCnxnSocketNIO.doTransport(ClientCnxnSocketNIO.java:361)
  at org.apache.zookeeper.ClientCnxn$SendThread.run(ClientCnxn.java:1141)

还有报错:

2021-10-31 19:52:29,413 ERROR [main] zookeeper.RecoverableZooKeeper: ZooKeeper create failed after 4 attempts
2021-10-31 19:52:29,738 INFO  [main] zookeeper.ZooKeeper: Session: 0x0 closed
2021-10-31 19:52:29,739 ERROR [main] regionserver.HRegionServer: Failed construction RegionServer
org.apache.hadoop.hbase.ZooKeeperConnectionException: master:160000x0, quorum=master:2181, baseZNode=/hbase Unexpected KeeperException creating base node
  at org.apache.hadoop.hbase.zookeeper.ZKWatcher.createBaseZNodes(ZKWatcher.java:158)
  at org.apache.hadoop.hbase.zookeeper.ZKWatcher.<init>(ZKWatcher.java:132)
  at org.apache.hadoop.hbase.regionserver.HRegionServer.<init>(HRegionServer.java:604)
  at org.apache.hadoop.hbase.master.HMaster.<init>(HMaster.java:475)
  at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
  at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)
  at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
  at java.lang.reflect.Constructor.newInstance(Constructor.java:423)
  at org.apache.hadoop.hbase.master.HMaster.constructMaster(HMaster.java:3055)
  at org.apache.hadoop.hbase.master.HMasterCommandLine.startMaster(HMasterCommandLine.java:236)
  at org.apache.hadoop.hbase.master.HMasterCommandLine.run(HMasterCommandLine.java:140)
  at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
  at org.apache.hadoop.hbase.util.ServerCommandLine.doMain(ServerCommandLine.java:149)
  at org.apache.hadoop.hbase.master.HMaster.main(HMaster.java:3073)

出现原因:就在于zk的协调上,当master主机向zk注册的时候,是以自身主机名来进行注册的,即master这个节点绑定的是VMxxx这个主机名,而我的Regionserver通过zk来获取master的hostname的时候,获取的是VMxxx而不是master,虽然regionserver的hosts文件中配置了master到ip的映射,在hbase-site.xml中配置了hbase.master.info.bindAddress选项为master都没用的,因为读取master根本不走配置文件二是走zk,然后在根据zk返回的结果取查询hosts中的映射。


解决方法修改主机名,并且永久生效不要重启后失效.

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
&nbsp; 相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情:&nbsp;https://cn.aliyun.com/product/hbase &nbsp; ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库&nbsp;ECS 实例和一台目标数据库&nbsp;RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&amp;RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
1月前
|
存储 分布式计算 Hadoop
Hadoop-33 HBase 初识简介 项目简介 整体架构 HMaster HRegionServer Region
Hadoop-33 HBase 初识简介 项目简介 整体架构 HMaster HRegionServer Region
50 2
|
XML 存储 分布式计算
hbase构建二级索引解决方案
HBase的一级索引就是rowkey,我们仅仅能通过rowkey进行检索。假设我们相对Hbase里面列族的列列进行一些组合查询,就只能全表扫描了。表如果较大的话,代价是不可接受的,所以要提出二级索引的方案。
995 0
hbase构建二级索引解决方案
|
3月前
|
消息中间件 算法 安全
操作系统处理多进程的问题及解决方案
【8月更文挑战第23天】
203 1
|
5月前
|
Python Windows
在 Windows 平台下打包 Python 多进程代码为 exe 文件的问题及解决方案
在使用 Python 进行多进程编程时,在 Windows 平台下可能会出现将代码打包为 exe 文件后无法正常运行的问题。这个问题主要是由于在 Windows 下创建新的进程需要复制父进程的内存空间,而 Python 多进程机制需要先完成父进程的初始化阶段后才能启动子进程,所以在这个过程中可能会出现错误。此外,由于没有显式导入 Python 解释器,也会导致 Python 解释器无法正常工作。为了解决这个问题,我们可以使用函数。
124 5
|
4月前
|
监控 NoSQL 安全
【亲测有效】connection refused报错 为什么redis 进程突然挂掉,频繁出现redis 进程突然挂掉情况解决方案
【亲测有效】connection refused报错 为什么redis 进程突然挂掉,频繁出现redis 进程突然挂掉情况解决方案
273 0
|
NoSQL Shell Linux
跨cpu架构部署容器技术点:怎么将容器启动时的1号进程挂载到systemctl
--privileged=true:是Docker中的一个参数,用于授予容器的特权权限。当一个容器被设置为特权容器时,它将拥有与主机操作系统相同的权限,可以执行一些高级操作,如访问主机设备、加载内核模块等。
91 0
|
SQL 运维 Oracle
【大数据开发运维解决方案】ogg(GoldenGate)三大进程常用参数
PORT 7809 管理进程的监听端口,默认使7809,当7809不可用时会从DYNAMICPORTLIST定义的列表中选择一个可用的端口,主要用于本地goldengate进程之间的通信 DYNAMICPORTLIST 7810-7860 动态端口,可以指定最大256个可用端口列表,用于主端和备端的进程通信,当目标端有防火墙设置时或者主端的投递进程传送数据要经过防火墙(就是主端有防火墙设置时)才能到达备端时,需要在网络上开通指定的端口。源端和目标段的Collector、Replicat、GGSCI进程通信也会使用这些端口,指定足够的端口去容纳进程数的扩张,这样就不需要停止和重启管理器进程
【大数据开发运维解决方案】ogg(GoldenGate)三大进程常用参数
|
SQL 运维 大数据
【大数据开发运维解决方案】GoldenGate replicat进程延迟分析步骤
GoldenGate几乎支持市面上流行的所有主流的操作系统平台和数据库。 博主所在单位目前使用Oracle GoldenGate将各个业务生产库汇聚到一起做数仓***实时ODS平台***, 我们采用异构同步,即源端同步过来的表在ODS新增了一个etltime字段,用来记录当前数据变更时间。 为了记录数据的事务变更历史记录,我们将数据的变更记录映射同步到一张tab_name_audit表中。为了防止源端业务库误删数据,我们将被删除的数据映射同步到一张tab_name_his表中。原表映射到ods后还是正常的映射同步dml操作。
【大数据开发运维解决方案】GoldenGate replicat进程延迟分析步骤
|
运维 Oracle 关系型数据库
【大数据开发运维解决方案】kill占用指定端口进程(定时自动重启weblogic脚本)
上面是总结的定时自动重启weblogic脚本以及如果不慎用root启动weblogic后如何恢复oracle用户的运维。 1、通过ps-ef |grep命令找到想要杀死的进程信息,然后配合awk和sed组织好要杀死的进程清单对应的shell语句,并通过sh命令自动执行kill: ps -ef |grep /home/apache-tomcat-7.0.76/|awk 'NR&amp;gt;1 {print $2}' | sed -e &quot;s/^/kill -9 /g&quot; | sh -
【大数据开发运维解决方案】kill占用指定端口进程(定时自动重启weblogic脚本)
|
人工智能 运维 安全
带你读《生命科学行业云上解决方案及最佳实践》——中山大学医学院,云上 HPC 加快新冠致 病症因素研究进程
带你读《生命科学行业云上解决方案及最佳实践》——中山大学医学院,云上 HPC 加快新冠致 病症因素研究进程
192 0