MooseFS使用问题分析总结-阿里云开发者社区

MooseFS使用问题分析总结

2017-11-09 1081

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

随着数据量越来越大，MFS的使用中也出现过一些问题，这里做了一些分析和总结，下面和大家分享一下：

先提一下MFS出问题时出现比较频繁的两个信息：

连接中断问题在Master端会出现如下错误：

mfsmaster[15861]: connection with client(ip:10.11.18.175) has been closed by peer
表示客户端和master的连接中断
mfsmaster[15861]: connection with ML(10.11.19.76) has been closed by peer
表示Metalogger和Master的连接中断
mfsmaster[15861]: connection with CS(10.11.18.199) has been closed by peer
表示ChunkServer和Master的连接中断

原因分析可能如下：

解决办法：

对于1、3出现引起的中断可不加理会，重点需关注2引起的问题：
针对2-a：Client控制请求，如超高并发的读写删除，另需注意的操作是ls，大家知道Linux系统本身对一个目录下文件个数的显示是有限制的（如10W，那么涉及到的需遍历指令就会报错，list too long)，同样，我们MFS中遍历目录下文件时也要注意，要遍历的文件数过多会导致超时引起连接被中断等问题。
针对2-b: 合理分配带宽资源，优化网络环境解决。

备注：

Client或Chunk到Master的连接中断之后，会由Client或Chunk自动发出重连(Reconnection)和注册(Register)操作。

坏块问题在Master端会出现如下错误：

mfsmaster[3250]: chunkserver has nonexistent chunk (000000000002139F_00000001), so create it for future deletion
mfsmaster[3250]: (10.11.18.199:9422) chunk: 000000000002139F creation status: 20
mfsmaster[3250]: chunk 000000000002139F has only invalid copies (1) – please repair it manually
mfsmaster[3250]: chunk 000000000002139F_00000001 – invalid copy on (10.11.18.199 – ver:00000000)
mfsmaster[3250]: currently unavailable chunk 000000000002139F (inode: 135845 ; index: 23)

上述日志的意思是：有一个块在Master中有元数据信息，但ChunkServer中没有这个块，系统会自动在ChunkServer上创建此块为了后续删除，因为没有内容，所以是非法的copy，我们也无法访问到此块。

出现的原因可能有很多，如：

Client端大文件传输过程中，强制拔下master主机电源，造成master非法关闭，使用mfsmetarestore -a修复后，master日志报告有坏块
ChunkServer的csstats.mfs存放位置空间不足，导致文件块无法写入，也会引起块错误
手动删除ChunkServer上的块文件
删除文件后，Master非正常结束后重启，但没有结果changelog.mfs进行恢复，也会引起坏块

原因应该还有很多，后续有遇到再补充。

解决办法：

Client端使用mfsfilerepair对文件进行修复。

我理解坏块分为两种：

修复之后可能出现如下日志信息：

mfsmaster[3250]: chunk hasn’t been deleted since previous loop – retry
mfsmaster[3250]: (10.11.18.199:9422) chunk: 000000000002139F deletion status: 13

Client端执行一个mv或rm 操作，master将不会再显示此信息，如：

本文转自yzy121403725 51CTO博客，原文链接：http://blog.51cto.com/lookingdream/1831815，如需转载请自行联系原作者

文章标签：

监控

MooseFS使用问题分析总结