lustre一直是hpc存储市场的常见选择,但自从DDN收购了lustre的知识产权,因此客户的需求扩展到了其他并行文件系统上,但它们普遍缺少企业级别的可靠性,尽管beegfs在欧美一些高校上得到了比较广泛的应用,但它还是存在不少可靠性的问题。
首先beegfs在不同程度上缺少保护,例如:
- storage的客户端和服务器在发生内核问题、软件奔溃或者掉电等问题上没有缓存保存,主要的问题是
- 缓存在客户端本身的数据
- 缓存在存储服务器上的底层文件系统数据如xfs、zfs、ext4
- 还有操作系统内核本身在存储服务器的文件系统下缓存的数据
同时beegfs缺少一些常用的分布式文件系统的功能,如:
- 用户验证功能
- 快照
- 加密
- 备份
可能的解决方法
- 共享存储集群
- 使用buddy group
- 消除客户端和存储服务器的缓存
- 或者给底层文件系统找一块单独的盘作为日志盘,能够在出现故障后重写日志,这里建议使用soft raid,因为zfs能够提供更好的数据一致性和恢复能力,但同时需要测量zfs对性能的影响。