Apache Doris FE 元数据常见故障处理

简介: Apache Doris FE 元数据常见故障处理

该处理方法适用于 Apache Doris 0.14.7 及之后所有版本


常见问题


FE (Follower)挂掉


出现类似下面的错误

5.png

解决方案:


单个 FE (Follower)情况


  • 如果是单个FE,直接在conf/fe.conf 中加入 metadata_failure_recovery=true

  • 在访问正常之后,将上面元数据恢复模式设置成false,或者将这个配置项注释掉

  • 最后重启 FE

  • 如果有 Observer

  1. 1.首先停掉所有的 Observer(正常情况下 Follower出问题,Observer 也会挂掉)

  2. 2.使用上面元数据恢复模式,将Follower 恢复正常之后

  3. 3.在MySQL 客户端或者命令行下连接Follower(Master)节点

  4. 4.执行下面的命令
  5. 5.png
  • 然后到Observer 节点上,将Observer 元数据目录清空(可以先备份)

  • 然后使用下面的命令启动Observer
sh bin/start_fe.sh --helper master_fe_ip:port --daemon
master_fe_ip:你要Master FE 节点IP,如果是单个Follower就是你的这个Follower节点IP
port:fe.conf 中的 edit_log_port,默认9010
  1. 1.在MySQL 客户端或者命令行下连接Follower(Master)节点执行下面的命令
ALTER SYSTEM ADD OBSERVER "OBSERVER_IP:PORT";
这里是你刚才启动Observer节点加入到集群中那个
OBSERVER_IP:你要加入的Observer 节点IP
PORT:fe.conf 中的 edit_log_port,默认9010
  1. 2.查看FE运行状态
show fontends;
查看FE(Follower 和你刚才添加的 Observer 运行状态是否正常)
你也可以通过查看你刚才添加的Observer 的日志log/fe.log 观察是否启动正常

多个 FE (Follower)情况


  • 在所有 FE 的元数据目录下查看image/image.xxxx

  • 找出image.xxxx 这个xxxx 数字最大的这个节点,这个数字最大说明这个节点的元数据是最新的

  • 然后按照上面单个 Follower + 多个 Observer 的恢复流程进行操作,只不过 Observer 换成 Follower 即可。

FE 因为没有配置 priority_networks 启动错误


FE在启动的时候报类似下面的错误

java.io.IOException: the self host 172.31.26.7 does not equal to the host in ROLE file 172.17.0.1\. You need to set 'priority_networks' config in fe.conf to match the host 172.17.0.1     at org.apache.doris.catalog.Catalog.getClusterIdAndRole(Catalog.java:903)     at org.apache.doris.catalog.Catalog.initialize(Catalog.java:805)     at org.apache.doris.PaloFe.start(PaloFe.java:125)     at org.apache.doris.PaloFe.main(PaloFe.java:63)

解决方案:


删除 doris-meta目录下的所有目录及文件,修改 fe.conf 里面的 priority_networks,重启即可解决


Apache Doris 0.14.7 之前版本


针对 Doris 0.14.7 之前版本,出现元数据错误,将其他节点从集群中删除,在作为新的节点加入,可能会存在错误,加入不成功,同时会导致其他 FE 挂掉的情况,针对之前版本正确的做法请参考下面链接


Apache Doris fe元数据故障运维

目录
相关文章
|
24天前
|
SQL 消息中间件 关系型数据库
Apache Doris Flink Connector 24.0.0 版本正式发布
该版本新增了对 Flink 1.20 的支持,并支持通过 Arrow Flight SQL 高速读取 Doris 中数据。
|
8天前
|
存储 SQL 缓存
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
快手 OLAP 系统为内外多个场景提供数据服务,每天承载近 10 亿的查询请求。原有湖仓分离架构,由离线数据湖和实时数仓组成,面临存储冗余、资源抢占、治理复杂、查询调优难等问题。通过引入 Apache Doris 湖仓一体能力,替换了 Clickhouse ,升级为湖仓一体架构,并结合 Doris 的物化视图改写能力和自动物化服务,实现高性能的数据查询以及灵活的数据治理。
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
|
22天前
|
存储 JSON 物联网
查询性能提升 10 倍、存储空间节省 65%,Apache Doris 半结构化数据分析方案及典型场景
本文我们将聚焦企业最普遍使用的 JSON 数据,分别介绍业界传统方案以及 Apache Doris 半结构化数据存储分析的三种方案,并通过图表直观展示这些方案的优势与不足。同时,结合具体应用场景,分享不同需求场景下的使用方式,帮助用户快速选择最合适的 JSON 数据存储及分析方案。
查询性能提升 10 倍、存储空间节省 65%,Apache Doris 半结构化数据分析方案及典型场景
|
29天前
|
SQL 消息中间件 Java
兼容Trino Connector,扩展Apache Doris数据源接入能力|Lakehouse 使用手册(四)
通过兼容 Connector 插件,Apache Doris 能够支持 Trino/Presto 可对接的所有数据源,而无需改动 Doris 的内核代码。
兼容Trino Connector,扩展Apache Doris数据源接入能力|Lakehouse 使用手册(四)
|
2月前
|
存储 消息中间件 运维
招联金融基于 Apache Doris 数仓升级:单集群 QPS 超 10w,存储成本降低 70%
招联内部已有 40+ 个项目使用 Apache Doris ,拥有超百台集群节点,个别集群峰值 QPS 可达 10w+ 。通过应用 Doris ,招联金融在多场景中均有显著的收益,比如标签关联计算效率相较之前有 6 倍的提升,同等规模数据存储成本节省超 2/3,真正实现了降本提效。
招联金融基于 Apache Doris 数仓升级:单集群 QPS 超 10w,存储成本降低 70%
|
15天前
|
SQL 存储 缓存
Apache Doris 2.1.6 版本正式发布
2.1.6 版本在 Lakehouse、异步物化视图、半结构化数据管理持续升级改进,同时在查询优化器、执行引擎、存储管理、数据导入与导出以及权限管理等方面完成了若干修复
|
1月前
|
存储 大数据 数据挖掘
【数据新纪元】Apache Doris:重塑实时分析性能,解锁大数据处理新速度,引爆数据价值潜能!
【9月更文挑战第5天】Apache Doris以其卓越的性能、灵活的架构和高效的数据处理能力,正在重塑实时分析的性能极限,解锁大数据处理的新速度,引爆数据价值的无限潜能。在未来的发展中,我们有理由相信Apache Doris将继续引领数据处理的潮流,为企业提供更快速、更准确、更智能的数据洞察和决策支持。让我们携手并进,共同探索数据新纪元的无限可能!
81 11
|
2月前
|
存储 消息中间件 Java
Apache Flink 实践问题之原生TM UI日志问题如何解决
Apache Flink 实践问题之原生TM UI日志问题如何解决
36 1
|
2月前
|
消息中间件 监控 数据挖掘
基于RabbitMQ与Apache Flink构建实时分析系统
【8月更文第28天】本文将介绍如何利用RabbitMQ作为数据源,结合Apache Flink进行实时数据分析。我们将构建一个简单的实时分析系统,该系统能够接收来自不同来源的数据,对数据进行实时处理,并将结果输出到另一个队列或存储系统中。
108 2
|
2月前
|
消息中间件 分布式计算 Hadoop
Apache Flink 实践问题之Flume与Hadoop之间的物理墙问题如何解决
Apache Flink 实践问题之Flume与Hadoop之间的物理墙问题如何解决
37 3

相关实验场景

更多

推荐镜像

更多
下一篇
无影云桌面