重复数据删除技术在备份中的应用体会-阿里云开发者社区

开发者社区> boxti> 正文

重复数据删除技术在备份中的应用体会

简介:
+关注继续查看
 
 2007年底,熊猫电子集团选择EMC Avamar重复数据删除技术,建成了同行业中领先的数据备份系统。目前,这一技术已经在熊猫电子成功应用近一年了。在此介绍我们的应用经验,希望可以给国内同行提供有益的启示。

数据对熊猫集团的意义

南京熊猫电子集团创始于1936年,是一家具有70多年历史的国有综合性大型电子信息企业。1996年,熊猫集团控股的南京熊猫电子股份有限公司分别在香港联交所和上海证交所上市,成为国内电子行业第一家拥有H股的上市公司。南京熊猫电子集团下设家用电器产业集团、机电仪产业集团、通信产业集团、信息产业集团、新产业集团、电子制造产业集团等多家子公司,建有4个国家级工程技术研究中心、3个省级工程技术研究中心、4个市级工程技术研究中心、国家第一批博士后工作站公司主要产品和服务包括:卫星通信设备、移动通信设备、短波通信设备、彩电、个人数码娱乐产品、电子制造、仪器仪表、大生产装备、软件服务、系统集成等。公司还参股多家合资企业,包括南京爱立信熊猫通信有限公司、北京索爱普天移动通信有限公司、南京泰雷兹熊猫交通系统有限公司、南京LG熊猫电器有限公司、瀚宇彩欣(南京)科技有限公司等。

南京熊猫电子集团对各个子公司实行集团化管理,在集团总部部属了财务、Web网站、人力资源、OACRM等多套集团信息化系统,对子公司的业务运营进行集中支持和管控。信息系统对集团的正常运转非常关键。

信息中心作为信息系统的责任部门,最担心的就是数据丢失。系统故障总是可以恢复的,只不过是时间问题,换一台设备、重建系统也相对容易。数据丢失的风险则要大得多,信息中心的责任重大。

集团的数据量越来越大,对信息系统的依赖性越来越高。为了确保业务连续性和数据安全性,2007年底,熊猫集团开始建设新一代的数据备份系统,目标是提高数据保护的级别,实现更高标准的RTO(恢复时间目标)和RPO(恢复点目标)。

原有备份方案的挑战

熊猫电子集团需要保护的核心数据较大,主要是数据库数据和文件服务器,未来预计有快速的增长。此前的保护措施是备份至本地磁带库,备份策略为周五晚全备份加平时每天的增量备份。

熊猫电子集团的信息系统晚上一般不需要处理业务。所以每天下班后利用晚上时间备份,虽然一次全备份的时间较长,但备份窗口还够用。

不过,人无远虑,必有近忧。我们主要有两点担心:一是之前的磁带备份除了恢复时间长以外,还有一大缺点就是可靠性不够高。南京地区梅雨季节比较长,磁带受潮容易发霉。本以为数据都已经备份到磁带上,结果磁带读不出数据,那就麻烦了。二是如前面所说,整个集团的数据都在这个信息中心。如果遇到火灾、台风这类影响到整个机房的灾害,后果会很严重。所以信息中心决定做一个异地备份,多一道保障。显然,每天将备份磁带转运到异地保存是不可行的。即使不考虑每天转运的人力物力花费,也会因为费事而难以坚持。而且,即使坚持转运了也不是很可靠。

看好重复数据删除技术

熊猫电子考虑在相距5公里的地方建一个数据容灾备份系统,两地间连接的是商用IP网络,其带宽为2Mb/s。由于带宽小,可以通过的数据量非常有限,因此需要一套先进的方案,有效降低对带宽的要求,同时又能可靠地进行备份。

经过多方考察,我们发现,重复数据删除技术是一个比较理想的方案。备份数据的重复率是非常高的。例如,办公自动化系统中,文件流转、版本修订比较普遍,一个文件可能抄送给多个人,一个文件可能有多个版本,这其中有大量的重复数据。尤其是文件比较大的时候,备份时重复的存储空间占用相当可观。重复数据删除技术就能解决这个问题。所有重复的数据,系统在备份时只保留一份,在重复出现的地方,只保存一个数据地址。恢复数据时,数据能够自动还原。这正是熊猫电子需要的技术。

EMC Avamar是业界最优秀的重复数据删除技术之一,它是一种源端的全局重复数据删除技术。其特点是,在数据源开始处感知应用,能够针对具体应用数据(例如,Oracle数据库、SQL Server数据库、Word文档、PPT文档、电话录音、流媒体等等)的特点,实现最大限度的重复数据删除,删除率高达300:1甚至更高。例如,公司一个介绍性的PPT文档,今天张总接待使用,会保存一个署名张总和相应日期的版本;明天陈总出访演示,会保存一个署名陈总和相应日期的版本。两个文件只有一页不同,其它内容都一样。EMC Avamar能做到,第二次备份时,只保存改过的那一页。

新型备份方案性能出色

熊猫电子在中心机房搭建一台备份服务器,部署EMC Avamar技术。备份数据经过EMC Avamar去除重复以后,再通过IP网络传输到容灾备份中心,备份到这里的Avamar Data Store存储阵列上。在熊猫电子的应用环境上,Avamar的重复删除率达到100:1。由于传输的数据量非常小,大大节省了带宽,缩短了备份时间,也节约了备份空间。原来每天要备份好几小时,现在每天只要几十分钟就完成了。综合比较下来,采用EMC Avamar新一代备份方案,比传统的备份方式代价低得多,RTORPO却提高了很多。

Avamar数据保护方案简化了数据恢复操作。与传统解决方案不同,Avamar备份每天都是生成的完全备份,而不是传统备份方式的“全备份+增量备份”,Avamar只需操作一次就可以恢复所需要的时间点数据。Avamar对文件的恢复很简单,既可以使用传统的恢复操作,也可以通过Web页面的下载方式进行。

由于数据是备份到存储阵列的,存储阵列上有RAID冗余磁盘技术,可以随时、自动对数据进行校验,可靠性提高。从数据恢复速度看,磁盘备份比磁带备份的速度高一个数量级,数据可用性的提高不言而喻。

为了充分利用已有投资,多提供一重数据保护,除了用Avamar进行异地备份外,熊猫电子将之前的本地磁带库备份继续保留。

未来的计划

EMC Avamar的扩展性不错。将来熊猫电子的其它分支机构或厂区如果需要备份数据时,只要和Avamar的服务器建立网络连接,就可以将数据备份至Avamar上。如果需要加强数据的保护级别,可以再增加一个节点,和现有节点之间做数据镜像。如果未来的数据增长非常快,则可增加多个Avamar节点组成EMC专利的RAIN结构,既增加了备份空间,又使数据的保护更加可靠。

我们的经验是,对新技术要既大胆又谨慎。谨慎的是注重投资回报,大胆的是敢吃螃蟹。我们是国内较早采用IPS(入侵防御系统)技术的,应用效果不错,熊猫电子的供应商都来取经。采用重复数据删除技术也是国内领先的。

下一步,我们的计划是,采用VMware虚拟化技术,搭建一台高配置的服务器,把各个应用服务器都备份成虚拟机,放在这台服务器上。这样,当某个应用服务器出问题时,可以先用虚拟机工作,并马上通过虚拟机恢复系统。数据和系统都有备份,而且可以实时恢复,进一步提高系统的可用性。

 作者:熊猫电子集团信息中心/张宏宇、陆洋
来源:51CTO

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
sql语句操作数据库重复数据
1.示例表 Create Table TableA   (       id int,       NameA varchar(10)   )   2.判断NameA列是否有重复数据 select NameA from TableA group by NameA having count(1)>1   3.删除NameA列重复的数据,只留一条。
591 0
Android模拟器环境中安装和删除应用程序
1. 安装Android应用程序 1) 启动Android模拟器 2) adb install (apk在PC上的路径/)*.apk (将apk文件上传到了模拟器自带操作系统的data/app目录下了) 3) Android模拟器界面中浏览打开apk应用程序   2. 删除Android应用程序 删除 Android有好几种方法。
869 0
asp.net 之StringBuilder 去除重复数据
关键是使用StringCollection,需要引入System.Collections.Specialized命名空间。
690 0
使用OpenApi弹性释放和设置云服务器ECS释放
云服务器ECS的一个重要特性就是按需创建资源。您可以在业务高峰期按需弹性的自定义规则进行资源创建,在完成业务计算的时候释放资源。本篇将提供几个Tips帮助您更加容易和自动化的完成云服务器的释放和弹性设置。
11788 0
+关注
boxti
12535
10037
文章
1327
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载