重复数据删除 让存储系统成功瘦身
在如今这个数据爆炸时代,我们的数据量究竟有多大?据知名调研机构IDC给出的预测称,到2020年,全球数据量将达到惊人的40 ZB,数据规模将达到今天的44倍。除了数据和信息存储量的持续增加,云环境下的企业数据保护体系还面临:
-------有限的预算
-------数据有着较长的生命周期,这意味着会有更多数据需要保存得更久。
海量数据带来的问题不仅仅是存储本身,处于数据价值和法规性要求,这些数据通常还要保留一定的年限,比如一些数据通常要求保留数个月甚至数年。这些数据通常不会都存储在生产系统里面,而是需要转存到备份系统甚至归档系统。
-------对数据和应用的威胁在不断发展,7*24小时的业务连续性需求迫使企业的备份和数据保护计划也随之改变。
面对有限的预算和海量的数据,如何最大限度地减少企业存储和保护的数据量是IT管理人员的重中之重。让企业进行存储“瘦身”的意义是什么?举例来说,假如一个企业最多可以承受35 ZB的数据量,那么当这个数据量减少至7 ZB时,数据存储成本会大幅降低80,企业众多的IT项目预算也将不再望尘莫及。重复数据删除技术便能让这种意义重大的转变成为现实。作为企业用户广泛采用的数据缩减技术之一,重复数据删除可以从根本上减少存储占用的空间和用户的磁盘驱动器数量,减轻人力、能源、电力资源等方面的开销,从而大幅度的节约存储成本。另外,重复数据删除可以减少在网络中传输的数据量,进而降低能量消耗和网络成本,并为数据复制大量节省网络带宽。除了节约成本,重复数据删除技术还可提升数据保护体系的性能、增加每秒I/O操作,并通过消除多余和不必要的数据来提高了存储的利用率。
而在支持云计算环境和虚拟化方面,重复数据删除技术同样也是不可或缺的要素。在虚拟化和云计算中,灵活性和性能的需求是存储决策的主要驱动力。基于企业的业务需求,重复数据删除可以为企业提供足够的灵活性,并对每个站点的数据容量进行相应的调整。出色的市场表现也证明了这一点,据最新研究显示,预计2011年至2015年重复数据删除技术的全球市场将以年复合增长率30%以上的速度增长。
▲戴尔DR4100
作为在数据中心技术方面处于领先地位的IT解决方案提供商,戴尔在数据保护产品上也秉承了其一贯以来的创新改革理念,通过不断推出创新的解决方案来引领市场的发展,DR4000存储平台便是其首款主打重复数据删除的备份产品。而在今年二月,戴尔更是推出了DR4000的升级版DR4100。据悉,DR4100是戴尔专为解决客户的痛点(包括备份窗口限制、还原缓慢及灾难恢复不可靠且缓慢等)而设计,不仅拥有磁盘备份解决方案的性能和可靠性,还添加了戴尔通过收购Ocarina Networks公司而获得的重复数据删除和压缩能力。在DR4100中,戴尔选择了块级的重复数据删除方式。相对于文件级重复数据删除技术,块级重复数据删除可以提供更小的颗粒度,并且能提供次文件级的重复数据删除功能,可为用户带来更高的重复数据删除率。
分层保护战略 冷热数据各司其职
随着云计算、虚拟化等技术的兴起,企业的IT基础架构也随之发生了变化。下一代数据中心的发展逐渐从物理转为虚拟,现正步入云时代。然而,云环境下存储系统的存储容量不但通常都高达PB级别,同时还需具备强大的扩展能力。这样在同种存储类型中就存在提供同种访问类型,但是不同访问能力的需求。
按照信息生命周期管理原理,我们把数据分成五个层次:应用层、生产层、恢复层、保护层和归档层。数据在应用层产生,首先被存放在生产层,恢复层是为了快速恢复生产数据而设立的,保护层就是存放传统的备份数据,归档层是存放归档数据的。通常在生产层产生一份数据,那么在恢复层会产生3-5倍的数据,在保护层会产生6-10倍的数据,而在归档层则是25-50倍的数据。企业要同时管理不同层次的数据,并要确保数据能在不同层次之间快速传送。
正如上文所提到的,同种访问类型的数据需要不同的访问能力。这也意味着,在企业中,并非所有的数据都需要同等级别的保护。有些数据需要特定的数据设置,包括备份频率,备份量(全部还是部分备份),副本数量以及数据保存在哪里,保存多久时间。如果所有数据的保护都大同小异是行不通的,这意味着企业的有些数据资产保护不足,而另外一些则保护过度。对不需要保护的数据过度配置资源,却对某些数据保护不足,这会从许多不同的方面为企业带来大量成本。
显然企业也逐渐意识到了数据的价值并非全都一样,也不是一成不变的。戴尔亚太区存储业务部技术总监许良谋表示,现在的企业用户对不同级别的数据(冷热数据)的有效处理和存储愈发重视。因此,数据保护体系也需要更好地对冷热数据存储有着更为智能的策略。分层存储技术的初衷便是出于这样的考虑,它可将价值最大的数据保存在等级最高的存储资源上,以保证最高的性能、可用性和安全性。而对不重要的数据,就放在代价最小的存储资源上,这样就可减轻主存的容量压力,提高响应的速度。
采用分层存储的方式后,企业用户可以按照冷热数据的使用率,把它们放在最正确最适当的地方。而且随着数据的增加,企业对于数据归档的需求也日益提升。在没有分层存储能力的时代,归档的实现相当困难,尤其是对于结构化的数据。不过在应用了分层存储技术之后,归档就变得简单多了。系统可以自动在后台实现数据的归档,并根据数据的重要性以及访问的需求在不同的存储层中进行迁移,这样的实现对于应用系统是完全透明的。从应用的角度来看,分层存储也将云计算最大的优势——“高效和灵活”体现的淋漓尽致。
可以说,IT系统的成败将直接决定企业业务的成败,而在IT系统中,数据保护是其中的关键。虽然一直以来数据保护总被视为“云计算”广泛应用的绊脚石,但新一代数据保护策略针对云和海量数据环境在技术上进行了改进,通过结合不断变化的IT环境特点,对所遇到的数据保护问题做出合理的应对,从云的“绊脚石”转化为“推动力量“。在云计算模式下,采用合理的数据保护方法,可以将“云”模式所带来的商业潜力最大化,使云真正成为企业可持续发展的源动力。