LINUX同步软件rsync原理-阿里云开发者社区

开发者社区> 开发与运维> 正文
登录阅读全文

LINUX同步软件rsync原理

简介: Sync Algorithm: RSync vs. RDC 数据同步(Sync)是很多网络应用需要的解决的问题,比如文件镜像。这里就以文件同步为例,问题模型:网络中两个主机Host-A和Host-B,都有同一文件File-Old的拷贝,现在这个文件在Host-A上做了一些改变成为了File-New,需要通过同步让Host-B也获得F-New。
Sync Algorithm: RSync vs. RDC 数据同步(Sync)是很多网络应用需要的解决的问题,比如文件镜像。这里就以文件同步为例,问题模型:网络中两个主机Host-A和Host-B,都有同一文件File-Old的拷贝,现在这个文件在Host-A上做了一些改变成为了File-New,需要通过同步让Host-B也获得F-New。   让我们想想怎么处理这个问题,最简单的方法,把所有数据都传输一遍,这样是简单,但是显得浪费,因为File-New相对于File-Old只是有些小改变,全部copy代价太大。如果我们能够只传输发生改变的部分,也就是增、删、改的文件部分,那就太好了。这样,我们要解决的问题变成,如何得到File-Old和File-New的差别。   如果Host-A上面保留有一个File-Old,那用普通的diff算法求一下和File-New的差别就行了,但是实际应用中,Host-A往往不会保留File-Old;或者文件格式本身有很强的版本控制功能,Host-B告诉Host-A它手上文件的版本,Host-A就能够计算出差别;更多情况下,文件就是一串bytes,没有版本控制信息,没有历史拷贝,Rsync和RDC就是解决这种情况的同步的。   RSync算法是澳大利亚人Andrew Tridgell发明的,我看懂这个算法之后的第一感觉是:“嘿,这算法我也应该能想出来!”的确,按照Andrew Tridgell自己的话,这个算法只需要半个小时就能够理解,但是花费了他几年时间研究出来。   这里大概介绍一下Rsync算法大概原理: 1) Host-B把File-Old划分成不重合的大小为K字节的若干块,不足K字节的结尾部分加上Padding,然后对每一块求弱Hash和强Hash。弱Hash就是说很有可能两个不同的块Hash值相同,但是计算起来快,而且这里要求这个若Hash能够Rolling,也就是说已知字节1到字节K这个块的Hash值,能够很快的计算出字节2到字节K+1这个块的Hash值,往前Roll一个字节,计算很快;强Hash就是可以认为不同块肯定有不同Hash值,Rsync用的是MD4。我们让WH表示弱Hash,SH表示强Hash。 2) Host-B把每个块的WH和SH值发送给Host-A。 3) 该Host-A上场了,他的运算量比较大。Host-A对File-New每一个长度为K的块(也就是以每个字节开头的长度为K的块)计算WH,计算出来之后和Host-B发送过来的WH匹配,如果发现有相同的,再计算这个块的SH进行匹配,如果还是相符,说明这个块在File-Old里面也存在。假如File-New长度为N,那么Host-A要处理大约(N-K)个块,这里可见用两个Hash算法的作用,WH用来做初步比较,而且因为它可以Rolling,所以能够很快筛选掉大多数不匹配,对于漏网之鱼,也躲不过SH的筛选。 4) 通过上面的计算,Host-A可知道,File-New中哪些块和File-Old中的块相同,这样自然也可以计算出哪些不同,Host-A把这些不同encode一下送给Host-B。 5) Host-B收到Host-A送来的数据,decode,就得到了File-New相对于File-Old的改变,于是获得了File-New。   整个过程只需要一个round-trip,而且可以精确的得到一个字节级别的差别,Host-A的运算量相对要大一些。   Rsync的实现已经是*inx上面的一个重要工具,所以,当Microsoft在Windows 2003 Server上推出DFSR(Distributed File System Replication)时,Open Source Community颇有嘘声。其实DFSR采用的是RDC(Remote Differential Compression)算法,和RSync相差很大,并没有抄袭RSync。   我感觉,RSync有学院气息(这个算法本来就是Andrew Tridgell的博士论文),结果很完美,File-New和File-Old每一个字节的差别都计算出来了,但是Host-A和Host-B的计算量不对等,大部分的计算都集中在Host-A上。RDC和RSync相比方向上有点不同,RDC并不追求计算出字节级别的diff,而是用较少的运算求出数据块级别的diff。   RDC算法要求Host-A和Host-B通过一致的规则对File-New和File-Old分别进行分块,然后对每个块计算SH,Host-B把每个块的SH值发给Host-A,Host-A对两组SH进行diff,就可以知道有哪些块不同,哪些块被删掉了,哪些块被添加了。RDC的关键在于分块规则,也使用WH,要让同一规则应用于File-Old和File-New的时候,分出来的块能够尽量体现出区别。   比如File-Old包含“I Love Playing Basketball”, File-New是“I Like Playing Football"。如果是RSync算法,Host-A能够计算出准确的差别,“I Like Playing Football" 黄色部分修改了,绿色部分是增加的,精确到每个字符,Host-A主要告诉Host-B:“把第4-6号字符换成'ike',把16-21号字符去掉,插入'Foot'”。   如果是RDC算法,可能得到下面的结果: File-Old分块的结果,分成3块。 “I Love Playing Basketball” File-New分块的结果,分成3块。 “I Like Playing Football" Host-A经过比对,发现只有File-Old的第2块和File-New的第2块匹配,于是就告诉Host-B:“把你的第一块换成‘I Like’,把你的第3块换成‘Football’”。   如上面看到,RDC相对而言比较浪费,相比RSync,要多传输一些数据,但是Host-A和Host-B的计算量比较平均。为了让RDC发挥好的性能,一定要制定一个好的分块机制,让包含Diff的块尽量少包含没有Diff的数据,怎么做到这一点呢,还要靠WH,通过rolling checksum来从数据中快速挖掘出数据的性质。   注意一点就是RSync的分块策略是每块都是固定长度的,而RDC则每块长度可能不一样。   虽然RDC相对浪费一点,但是传送的大部分还是Delta数据,而且计算量相对平均而且较少,目前Window 2003 Server R2上的DFS使用的就是RDC算法,还有一个应用就是Live Messenger的Shared Folder功能,用一用,就知道效率不差了:)   转自:http://morganchengmo.spaces.live.com/blog/cns!9950CE918939932E!521.entry

Linux系统下如何使用rsync进行数据同步 发布时间:2008.01.30 06:33     来源:赛迪网    作者:sixth首先安装Rsync,比如在Redhat Fedora Linux上或者RHEL AS3上: rpm -ivh rsync-2.5.7-5.3E.i386.rpm 安装完成。 rsync客户端和服务器端都是同一个执行文件,只不过加的参数不一样。 例如,服务器A是192.168.0.100,服务器B是192.168.0.101,例如将101上的/www/downloads/new目录下的文件同步到192.168.0.100的/www/download目录下,则100上运行rsync作为服务器端,101做为客户端。 首先把192.168.0.100服务器端的配置文件建立起来。 vi /etc/rsyncd.conf 内容如下: uid = nobody gid = nobody use chroot = yes max connections = 4 pid file = /var/run/rsyncd.pid lock file = /var/run/rsync.lock log file = /var/log/rsyncd.log [downloads] path = /www/downloads/ ignore errors read only = false list = false hosts allow = 192.168.0.101/24 hosts deny = 0.0.0.0/32 auth users = backup secrets file = /etc/rsyncd.pwd 找个配置文件中,uid和gid指明了运行身份,chroot表示连接后自动切换目录,read only=false是允许别的客户端向本机的服务器端上传。host allow和deny是限制连接地址。auth user是认证用户名,secrets file = /etc/rsyncd.pwd是表示认证用户名的时候到这里读取密码。 接下来编辑密码文件: vi /etc/rsyncd.pwd backup:123456 设置密码文件权限700:(权限不对会登陆不上) chmod 700 /etc/rsyncd.pwd 然后启动rsync服务: /usr/bin/rsync --daemon 把rsync加入自动启动脚本,开机后自动启动: echo "/usr/bin/rsync --daemon" >> /etc/rc.d/rc.local 注意一下iptables必须允许rsync的873端口被连接。 现在到192.168.0.101的客户端上,命令格式如下: rsync [-参数] 源地址路径 目标地址路径 例如将101上的/www/downloads/new目录下的文件同步到192.168.0.100的/www/downloads目录中。 则创建执行脚本: vi /root/rsync.sh rsync -vrtL --progress \ /www/downloads/new/* \ backup@192.168.0.100::downloads \ --password-file=/root/rsync.pwd -v参数表示显示输出结果,r表示保持属性,t表示保持时间,L表示软link视作普通文件。 创建客户端的密码文件: vi /root/rsync.pwd 123456 注意:客户端的密码脚本不带用户名。 设置密码文件权限700:(权限不对会登陆不上) chmod /root/rsync.pwd 将客户端脚本加入定期任务: echo "00 3 * * * root /usr/prima/etc/rsync.sh" >> /etc/crontab 则每天凌晨3点运行同步。 现在可以直接运行 /root/rsync.sh 观看效果。 简单的rsync配置完成。


Rsync简介    rsync-2.6.8-1.el4.rf.i386.rpm
rsync是一个远程数据同步工具,可通过LAN/WAN快速同步多台主机间的文件。 rsync 本来是用以取代 rcp 的一个工具, 它当前是由 rsync.samba.org 维护. rsync 使用所谓的 "rsync 演算法", 提供一个非常快速的文件传输方法, 使 local 和远程二部主机之间的文件达到同步, 它主要是传送二个文件的不同部份, 而非每次都整份传送, 因此速度相当地快. 运行rsync server的机器也就是backup server,1台rsync server可同时备份多个client的数据;也可以多个rsync备份1个client的数据。 rsync 可以搭配 rsh 或 ssh 甚至使用 daemon 模式。 Rsync server会打开一个 873 的服务通道(port), 等待对方 rsync 连接. 连接时, rsync Server 会检查口令是否相符, 若通过口令查核, 则开始进行文件传输. 第一次连通完成时, 会把整份文件传输一次, 下一次就只传送二个文件之间不同的部份.
Rsync client可以是类unix主机也可以是windows主机(需配合Sync2NAS使用)。

基本特色1。可以镜像保存整个目录树和文件系统。 2。可以很容易做到保持原来文件的权限、时间、软硬链接等等。 3。无须特殊权限即可安装。 4。优化的流程,文件传输效率高。 5。可以使用rcp、ssh等方式来传输文件,当然也可以通过直接的socket连接。 6。支持匿名传输。
相关链接官方网站 http://rsync.samba.org/ 下载 http://rsync.samba.org/download.html
rsync实例用法- -                                      
http://batc.bao.ac.cn/cgi-bin/leobbs/cgi-bin/topic.cgi?forum=2&topic=7&show=0

vi /etc/xinetd.d/rsync
disable = yes
改成
disable = no

rsyncd.conf 是rsyncd的config文件
vi /etc/rsyncd.conf
#uid = nobody
#gid = nobody
use chroot = yes
max connections = 4
pid file = /var/run/rsyncd.pid
lock file = /var/run/rsync.lock
log file = /var/log/rsyncd.log
      [compshop]
      path = /home/sites/compshop
      auth users = compshop
      uid = compshop
      gid = compshop
      secrets file = /etc/rsyncd.secrets
      read only = no
      [datafeed]
      path = /home/sites/datafeed
      auth users = datafeed
      uid = datafeed
      gid = datafeed
      secrets file = /etc/rsyncd.secrets
      read only = no
      [smtemplates]
      path = /home/sites/smtemplates
      auth users = smtemplates
      uid = smtemplates
      gid = smtemplates
      secrets file = /etc/rsyncd.secrets
      read only = no
      [smarterv2]
      path = /home/sites/smarterv2
      auth users = smarterv2
      uid = smarterv2
      gid = smarterv2
      secrets file = /etc/rsyncd.secrets
      read only = no

rsyncd.secrets是rsyncd的密码文件,里面是写用户名和密码,就是linux的用户名和密码
vi /etc/rsyncd.secrets
compshop:any
datafeed:any
smtemplates:any
smarterv2:any
以上是服务器端的配置,开了这个服务以后,端口是873
以下是客服端的配置文件,是在另外一台电脑上的。文件名是可以自己改的。
vi /home/sites/sites_rsyncd
#!/bin/bash
rsync -tvzrp --progress --password-file=/home/sites/rsyncd.secrets --delete --exclude
/home/sites/compshop/logs [ft=#000033,2,    /home/sites/compshop/
rsync -tvzrp --progress --password-file=/home/sites/rsyncd.secrets --delete --exclude
/home/sites/datafeed/logs [ft=#000033,2,    /home/sites/datafeed/
rsync -tvzrp --progress --password-file=/home/sites/rsyncd.secrets --delete --exclude
/home/sites/smtemplates/logs [ft=#000033,2,    /home/sites/smtemplates/
rsync -tvzrp --progress --password-file=/home/sites/rsyncd.secrets --delete --exclude
/home/sites/smarterv2/logs [ft=#000033,2,    /home/sites/smarterv2/

chmod 744 /home/sites/sites_rsyncd
vi /home/sites/rsyncd.secrets
any
chmod 600 /home/sites/rsyncd.secrets
三、rsync命令的用法
  在配置完rsync服务器后,就可以从客户端发出rsync命令来实现各种同步的操
作。rsync有很
多功能选项,下面就对介绍一下常用的选项:
  rsync的命令格式可以为:
  1. rsync [OPTION]... SRC [SRC]... [USER@]HOST:DEST
  2. rsync [OPTION]... [USER@]HOST:SRC DEST
  3. rsync [OPTION]... SRC [SRC]... DEST
  4. rsync [OPTION]... [USER@]HOST::SRC [DEST]
  5. rsync [OPTION]... SRC [SRC]... [USER@]HOST::DEST
  6. rsync [OPTION]... rsync://[USER@]HOST[:PORT]/SRC [DEST]
  rsync有六种不同的工作模式:
  1. 拷贝本地文件;当SRC和DES路径信息都不包含有单个冒号":"分隔符时就启动这
种工作模式。
  2.使用一个远程shell程序(如rsh、ssh)来实现将本地机器的内容拷贝到远程机器
。当DST
路径地址包含单个冒号":"分隔符时启动该模式。
  3.使用一个远程shell程序(如rsh、ssh)来实现将远程机器的内容拷贝到本地机器
。当SRC
地址路径包含单个冒号":"分隔符时启动该模式。
  4. 从远程rsync服务器中拷贝文件到本地机。当SRC路径信息包含"::"分隔符时启动
该模式。
  5. 从本地机器拷贝文件到远程rsync服务器中。当DST路径信息包含"::"分隔符时启
动该模式。
  6. 列远程机的文件列表。这类似于rsync传输,不过只要在命令中省略掉本地机信
息即可。
  下面以实例来说明:
  # rsync -vazu -progress  [ft=#000033,2,    /home
  v详细提示
  a以archive模式操作,复制目录、符号连接
  z压缩
  u只进行更新,防止本地新文件被重写,注意两者机器的时钟的同时
  -progress指显示
  以上命令是保持客户机192.168.100.90上的/home/terry目录和rsync服务器上的terry目
录同
步。该命令执行同步之前会要求你输入terry账号的密码,这个账号是我们前面
在rsyncd.secrets
文件中定义的。如果想将这条命令写到一个脚本中,然后定时执行它的话,可以使
用--password-file
选项,具体命令如下:
  # rsync -vazu -progress --password-file=/etc/rsync.secret
  [ft=#000033,2,    /home
  要使用--password-file选项,就得先建立一个存放密码的文件,这里指定
为/etc/rsync.secret。
其内容很简单,如下:
  terry:12345
  同样要修改文件属性如下:
  # chmod 600 /etc/rsyncd.secrets
  四、利用rsync保持Linux服务器间的文件同步实例
  现在假设有两台Linux服务器A(192.168.100.21)和B(192.168.100.90),服务器A中的
/home/terry和服务器B中的/home/terry这两个目录需要保持同步,也就是当服务器A中文
件发生
改变后,服务器B中的文件也要对应去改变。
  我们按上面的方法,在服务器A上安装rsync,并将其配置为一台rsync服务器,并
将/home/terry
目录配置成rsync共享出的目录。然后在服务器B上安装rsync,因为B只做客户端,所以
无需配置。
然后在服务器B,建立以下脚本:
  #!/bin/bash
  /usr/loca/rsync/bin/rsync -vazu -progress    --delete
  --password-file=/etc/rsync.secret [ft=#000033,2,    /home
  将这个脚本保存为AtoB.sh,并加上可执行属性:
  # chmod 755 /root/AtoB.sh
  然后,通过crontab设定,让这个脚本每30分钟运行一次。执行命令:
  # crontab -e
  输入以下一行:
  0,30 * * * *    /root/AtoB.sh
  保存退出,这样服务器B每个小时的0分和30分时都会自动运行一
次AtoB.sh,AtoB.sh是负责
保持服务器B和服务器A同步的。这样就保证了服务器A的所有更新在30钟后,服务器B
也一样取得了和服务器A一样的最新的资料。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
开发与运维
使用钉钉扫一扫加入圈子
+ 订阅

集结各类场景实战经验,助你开发运维畅行无忧

其他文章