海量小文件同步-阿里云开发者社区

海量小文件同步

2017-11-08 2836

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

集中式存储是目前中小企业广泛采用的方案，随着时间的流逝，这些存储不可避免的膨胀。集中式存储的弊端愈加显现，同步就是其中一个。

环境:

文件容量以TB计，里面是千万/亿级的小文件，分布在成千上万的子文件夹内。

分析：

rsync几乎是唯一选择，海量小文件同步面临的问题主要是rsync无止境的扫描，同步进度难以把控，巨大的临时目录等。所以解决办法只能是庖丁解牛，将一个大任务分解成N个小任务。

场景假设如下：

1、源服务器目录结构是按照年月日分布，示例如下

 
         /www/images/
         2014
         /
         04
         /
         30
         /xxx.png

2、目标rsync服务器为 192.168.1.2::www，且可写。

解决办法：

很明显，同步最底层的目录最快。

 
         find 
         /www/images 
         \ 
        
         -mindepth 3 \ 
        
         -maxdepth 3 \ 
        
         -
         type 
         d \ 
        
         -
         exec 
         rsync 
         -aquR  {}/ 192.168.1.2::www
         /images/ 
         \; \ 
        
         -
         exec 
         echo 
         /www/images/
         {} 
         done 
         \;

注：-R 可解决远程rsync服务器的目录结构问题。

另一种方法是for循环，比较好理解。

 
         #!/usr/bin/env bash
        
         dir
         =
         "www/images" 
        
         for 
         year 
         in  
         2014 2015 ;
         do 
        
         for 
         month 
         in 
         `
         seq 
         1 12`;
         do 
        
         for 
         day 
         in 
         `
         seq 
         1 31`;
         do 
        
         if 
         [  -d /$
         dir
         /$year/$month/$day ];
         then 
        
         rsync 
         -aqu /$
         dir
         /$year/$month/$day/  192.168.1.2::$
         dir
         /$year/$month/$day/ 
        
         else 
        
         echo 
         "directory /$dir/$year/$month/$day not exist." 
        
         fi 
        
         done 
        
         done 
        
         done

集中式存储的缺点是: 必须提前做容量规划，存储严格控制在设计容量内之内，如果要扩展，必须重新进行容量规划。

要根本解决这个问题，终极的办法似乎只有分布式文件系统，用全新的设计理念的来解决存储问题,按需扩展。

可惜的是，目前的分布式文件系统几乎都是为大文件而设计，对于海量小文件支持都不够。ceph足够优秀，但是还不完全成熟。

本文转自紫色葡萄 51CTO博客，原文链接：http://blog.51cto.com/purplegrape/1404981，如需转载请自行联系原作者

文章标签：

存储

Shell

海量小文件同步

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

海量小文件同步

热门文章

最新文章

相关电子书