mfs1.6.x故障一例,血的经验教训 推荐

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: mfs集群故障报告故障描述:    从2017年3月8日04:20--2017年3月8日06:20期间,调度系统mfs集群出现故障,导致无法正常使用。造成承载的虚拟机业务出现大批量的ping告警,同时影响到凌晨调度系统正常运行。

mfs集群故障报告

故障描述:

    从2017年3月8日04:20--2017年3月8日06:20期间,调度系统mfs集群出现故障,导致无法正常使用。造成承载的虚拟机业务出现大批量的ping告警,同时影响到凌晨调度系统正常运行。造成4点-6点间调度任务失败和虚拟机无法正常使用。

 

故障原因分析:

    对故障期间的系统日志记录进行查看和分析,发现以下异常信息:

1、所有的mfschunkserver互连时候出现大量超时的情况。

2、mfs挂载点只能读,不能写。

3、4点左右mfschunkserver出现cpu wio过高的情况

 

4、mfsmaster机器硬件故障----------查看dmesg信息,未发现有异常。

5、mfsmaster日志信息 ----------- 查看/var/log/message,未见异常报错

 

故障排除:

    1、由于出现mfs集群读写异常的情况,初步判断可能是mfsmaster异常造成。故计划重启mfsmaster,由于调度系统mfs集群使用的hearbeat和drbd构建的master双机。在确认备用master服务器正常后,进行了切换操作。

    mfsmaster未能正常启动,通过日志发现是由于metadata文件异常导致无法读写。随后切回主节点时,主节点也无法正常启动,报错原因同上。

    metadata是mfs集群中存储chunk块的元信息,损坏后会导致master无法正常读取到chunk块信息,从而无法正常启动。

   

    2、mfs官方提供了metadata的修复工具mfsmetarestore工具,使用此工具能进行metadata数据异常的修复。在完成相关文件备份后,使用mfsmetarestore –a 进行了metadata的自动修复。修复完成后,master恢复正常启动。与6点28分,开始mfs集群恢复正常使用。

 

    3、通过监控发现,在4点20分左右,10.39.3.87mfschunkserver出现swap跑满的情况,导致该chunkserver无法正常使用,影响了部分chunkserver与其进行块复制和读写。造成到mfs集群正常使用。10.39.3.87无法正常登陆,重启后恢复正常。(由于mfsmaster重启,对mfs集群造成影响的10.39.3.87连接断开,mfs集群暂时恢复正常。)

   

 

    如上所述,影响到mfs集群正常运行的主要原因是由于10.39.3.87导致了大量读写超时的情况,对调度系统、虚拟机业务造成很大影响。3.87上承载部分虚拟机业务,前期出现过由于虚拟机负载过高导致宿主机swap被耗尽,导致无法正常使用的情况。

 

 

 

   

整改措施:

1、升级mfs版本,进行优化

2、升级操作系统版本

3、升级kvm,控制虚拟机的过度使用

4、增加宿主机内存,降低单个虚拟机内存

 

 

 

后续故障:

    经过1天时间后,发现mfs元信息存储目录出现空间不够告警。检查发现changelog文件不轮转。一直都写在changlog.0.mfs中。导致文件都达到60G 。

   

查看元信息目录发现:

***@***.***mfs]# ll -h

-rw-r-----1 mfs mfs 177M Mar 9 15:20 bak.changelog.0.mfs

 -rw-r----- 1 mfs mfs 673M Mar 8 05:27bak.metadata.mfs.back

 -rw-r----- 1 mfs mfs 4.0G Mar 9 20:18changelog.0.mfs

-rw-r--r--1 mfs mfs 845M Mar 9 15:27 metadata.mfs.back

-rw-r-----1 mfs mfs 854M Mar 8 05:24 metadata.mfs.back.tmp

 -rw-r----- 1 mfs mfs 530M Mar 9 15:21metadata.mfs.emergency

 -rw-r----- 1 mfs mfs 22K Mar 9 19:59sessions.mfs

 -rw-r----- 1 mfs mfs 745K Mar 9 20:00stats.mfs

 

      默认changelog是1小时轮转一次,并将log信息合并到metadata中。查看master的日志信息/var/log/message发现:

Mar 9 20:00:00 yz381 mfsmaster[9276]:previous metadata save process hasn't finished yet - do not start another one

    每小时均是如此,所以一直没办法成功轮转。

    此时没有metadata.mfs.back文件(mfs运行时的元信息文件),也没有metadata.mfs 文件(mfs停止时的元信息文件)。文件变成了metadata.mfs.back.tmp,  经过与mfs社区联系,确认此文件为1.6版本bug,由于mfsmaster主备切换过程中产生了异常,导致了metadata.mfs.back.tmp文件产生。changelog轮转时候发现此文件存在,所以觉得有异常,不进行轮转。将此文件改名后,到整点的时候,changelog 正常开始轮转。一切恢复正常。


    经与社区沟通,此bug在新版本2.x之后已经修复。



    教训:  

      mfs集群出现故障,先检查mfsmaster、chunkserver、client日志,定位好故障的主要原因后再去处理,此次故障是由于单台的chunkserver的swap用完,导致chunkserver之间的块复制出现大量超时的情况,影响在mfs上运行的业务。并不是mfsmaster异常导致。最主要的还是看日志,根据日志来排查,不要盲目推测。


      另外主备切换过程需要非常谨慎小心。出问题会很严重。



      欢迎mfs使用者一起交流沟通:

         QQ  249016681


目录
相关文章
|
Oracle 关系型数据库 Linux
解决Linux系统下exp导入EXP-00028异常
问题描述:     在Linux系统中,对某个数据库用户进行exp导出备份时,出现下述异常: Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production With the Partitioning, OLAP, Data Mining and Real Application Testing options EXP-00028:  /home/xxxx.dmp д : expdat.dmp > 无法成功导出 解决步骤:     起初是怀疑权限不够,所以对数据库所在目录赋权。
1998 0
|
Kubernetes 调度 Perl
在K8S中,节点故障驱逐pod过程时间怎么定义?
在K8S中,节点故障驱逐pod过程时间怎么定义?
|
Web App开发 网络协议 API
干货满满:多人语音聊天室源码开发解析
目前,一对一直播源码平台已经不能满足广大社交场景和人群了,而多人语音聊天室源码的开发属性,正好满足此需求,也让社交更加多样化、娱乐化,那么在技术上如何开发多人语音聊天室源码呢?
干货满满:多人语音聊天室源码开发解析
|
jenkins 持续交付 数据安全/隐私保护
jenkins忘记admin密码,解决办法
jenkins忘记admin密码,解决办法
691 0
jenkins忘记admin密码,解决办法
|
缓存 JavaScript 前端开发
import...from... 和 require 如何找到模块位置?
昨天写了一篇文章,是关于 Vite 的,基于 Vite 从 0 到 1 启动一个 Vue2 项目,文章后面留下了几个问题是关于模块寻址问题,举个 Vue 项目里比较常用的 Vue 模块导入例子 import Vue from "vue"; 为什么不用写相对地址和绝对地址就能够导出 Vue 呢?似乎也没有配置路径?也没有配置映射,那么究竟 from "vue"; 对应的究竟是那个路径呢?
|
JavaScript
学习JS第九天
学习JS第九天
173 0
|
供应链 数据可视化 区块链
防疫物资哪里找?浙江试水用蚂蚁区块链技术回答
基于蚂蚁区块链的防疫物资信息公共服务平台在支付宝上线。
防疫物资哪里找?浙江试水用蚂蚁区块链技术回答
|
人工智能 自然语言处理 算法
新冠这只“黑天鹅”,AI 该如何“驯服”?|开发者必读(167期)
人们通常把极端异常的事件成为“黑天鹅事件”,新冠这只“黑天鹅”,不仅在爆发时让人措手不及,人们为了遏制疫情而采取的措施,正在世界全方位的系统中产生巨大的连锁反应,包括卫生健康、商业、金融、交通和旅行等等。
|
网络协议 Linux 开发工具
Linux - 修改Cent OS系统的的hostname、配置DNS映射
Linux - 修改Cent OS系统的的hostname、配置DNS映射目录 1 修改方式2 扩展: 配置DNS映射本篇文章中, 示例设计到的操作系统是CentOS 6.5. 1 修改方式① 命令hostname onepiece —— 运行后设置立即生效, 但要在打开新的会话窗口才能看到效果;...
2373 0
|
2天前
|
弹性计算 运维 搜索推荐
三翼鸟携手阿里云ECS g9i:智慧家庭场景的效能革命与未来生活新范式
三翼鸟是海尔智家旗下全球首个智慧家庭场景品牌,致力于提供覆盖衣、食、住、娱的一站式全场景解决方案。截至2025年,服务近1亿家庭,连接设备超5000万台。面对高并发、低延迟与稳定性挑战,全面升级为阿里云ECS g9i实例,实现连接能力提升40%、故障率下降90%、响应速度提升至120ms以内,成本降低20%,推动智慧家庭体验全面跃迁。