大数据最佳实践:不要拿你的备份冒风险

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

本文讲的是大数据最佳实践:不要拿你的备份冒风险,海量数据集合(又称“大数据”)保存给你的存储环境带来的问题之一是如何对这些数据进行有效地保护。

  PB级别的数据存储在备份窗口方面可能会引发混乱,而传统的备份设计无法针对数以百万的小文件处理。好消息是并非所有的大数据信息都需要通过传统的方式进行备份。

  Nick Kirsch是EMC横向扩展NAS平台Isilon的产品总监,他表示该产品能够在备份大数据的过程中更智能地处理数据。他的建议是,在你考虑如何保护数据之前,你应该仔细辨别你所要保护的数据。设备生成的数据--比如数据库中的报告文件--可以比备份和恢复更容易重新获取。

  在你尝试保护大数据存储时,或许会需要容量更大的二级存储系统、额外的带宽以及容纳更多数据备份的窗口。

  对比保护数据和重新生成数据的成本。Kirsch说,在许多情况下,源端数据应该被保护,不过对于各种程序生成的数据,重新运行程序生成或许比对这些数据进行保护的成本更低。

  数据保护

  对于防护用户或应用程序故障,Ashar Baig,Taneja集团的资深分析师和咨询师表示快照技术可以用于大数据的备份。

  Baig同时推荐使用本地磁盘系统用于快速和简单的第一层数据保护。“要找到一种可以在本地进行数据拷贝的方案,这样你可以在本地进行快速的恢复”他说,“做一份本地拷贝,并且使用镜像技术来快速完成,基于镜像的快照和复制技术确实可以在提升速度的同时照顾到性能。”

  如果你想要为大数据定制一套全新的备份系统,Baig建议你考虑使用目前的备份设备和软件。

  “任何你为大数据所采购的设备必须和现有的系统融合”Baig 提醒。

  备份软件供应商CommVault的资深产品和解决方案市场总监Jeff Echols表示他的大数据客户正在或者计划使用磁带系统和云供应商来保护离线数据。保留这些遗留下的磁带系统是出于对成本和现有的基础架构考虑,不过要将其迁移到归档应用而非主备份系统。


  所需的快速扫描

  大数据备份系统所面临的问题之一是每次在备份和归档方案启动时的扫描工作。遗留的数据保护系统会在每次备份和归档工作运行时扫描文件系统。对于大数据环境中的文件系统,这确实相当耗费时间。

  “备份人员经常要做的是在每次计划运行备份之前扫描文件系统”Commvault的Echols说,“即便是一次全备份,或者一次增量备份,都要完成一遍扫描程序。而扫描所需的时间对于整个操作而言花销甚大。”

  Commvault在其Simpana数据保护软件中的OnePass特性,可以解决扫描问题。根据Commvault的说法,OnePass是一个整合了对象级别的程序,用以收集备份、归档和报告数据。数据收集后从主系统中移出到ContentStore虚拟空间来完成保护操作。

  一旦完整的扫描完成之后,Commvault软件会在文件系统中部署一个脚本来记录所有增量备份,这使得整个流程更为高效。

  Echols表示他也从客户那里了解到快照和复制技术,但他认为在某些时候你不得不将数据从主系统中移除。你必须将数据归档或删除,以减少主系统中所需加载和保护的数据。

  宾州州立大学的计算及网络基础架构研究组织(RCC)找到了另一种加速扫描的方式。根据PSU系统管理员Michael Fennel的说法,该组织通过固态存储阵列来加速对数以亿计的文件的扫描。

  PSU的RCC使用IBM的通用并行文件系统(GPFS)连接到一台Dell的PowerVault MD2000存储阵列上。GPFS会将数据从每一对特定的LUN和元数据中分离开。

  Fenn说扫描所有这些文件使得备份变得极为缓慢,因此他将元数据的备份迁移到一台Texas Memory系统的RamSan-810闪存存储阵列上。在此之前,他整晚地使用过量的大约200块15,000转SAS驱动器来备份元数据。这一方式将大约需要12至24小时的备份窗口缩短至6小时。而使用闪存系统则更进一步将备份缩短至一小时左右。

  RCC使用IBM的Tivoli Storage Manager备份到磁带。

  “GPFS会深入调查每个元数据,找出数据块位置,并检查文件系统中每一个单独的文件来判断自上次备份后其是否变更过,”Fenn说,“我们备份以往需要12至24小时,主要原因就是需要扫描所有文件。”

  他指出单台的RamSan-810可以达到150,000的IOPS.这样同时运行两台可以将IOPS提升至300,000.“我们大致需要20,000到300,000 IOPS”Fenn说,“这就是说对于元数据的扫描不再是我们整个备份过程中的限制性因素了。”

  Fenn说RCC备份了大约1.5亿的用户文件,而这只是设备生成或用户产生的所有数据中很小的一部分。

  “有太多的文件需要扫描,”他说,“有一些数据可以重新生成。用户知道这个文件系统会被备份,而另外的则不会。我们有一个非保护的文件系统,上面有几百万份我们不会保护的文件。用户将数据放到上面的时候就知道有可能丢失。”

  Fenn同时在会被备份的文件系统上分配限额,这样“用户必须考虑这些文件是否真的需要备份。”


  Casino并不愿在备份上冒风险

  加利福尼亚州蒂梅丘拉的Pechanga 俱乐部酒店在今年二月部署了一套由50个EMC Isilon X200节点组成的集群,来备份其监控视频中的数据。该俱乐部的Isilon有着1.4 PB的可用存储来保存数据,对于业务运营至关重要,因为如果其监控系统出现中断,俱乐部将不得不中断所有的游戏运营。

  “在游戏过程中,我们受托进行监控,”Pechanga Technology Solution集团的系统总监,Michael Grimsley说,“如果监控出现故障,所有的游戏都不得不暂停。”

  如果安全事故发生,IT部门会将视频从X200节点中取出并迁移至支持WORM的存储中,同时通过NetWorker软件备份至EMC的Data Domain DD860目标重复数据删除设备中。俱乐部并不需要磁带来实现WORM,因为这是Isilon的SmartLock软件功能的一部分。

  “我们强制性地要求存储系统支持WORM功能,”Grimsley说,“任何时候只要发生故障,我们就有相应的视频。同时我们有相关策略确保数据不会被删除。”

  该俱乐部会在视频生成后,在Isilon上保留21天。

  Grimsley说他想要延长对整个监控视频数据的备份。他考虑增加一台更大的Data Domain设备来进行每天的数据备份。“我们目前并没有每天备份,但我们确实想这样做。”他说。

  另一种可能的方式是复制到容灾站点,这样俱乐部可以在监控系统宕机时快速的恢复。

  横向扩展系统

  另一种解决性能和容量问题的途径是使用横向扩展备份系统。这和横向扩展NAS类似,不过是针对数据保护的。你可以随着所要保护的数据的增长,通过增加节点的方式来提升性能和容量。

  “任何备份体系架构,尤其是针对大数据的,都必须能够合理地平衡性能和容量之间的关系,”Sepaton公司的首席技术官Jeff Tofano说,“否则到最后,它并不能成为一种好的解决方案,并且可能会比用户预想的要昂贵许多。”

  Sepaton的S2100-ES2模块化虚拟磁带库(VTL)定位于高密度数据的大型企业应用。根据公司的说法,其64位处理器节点能够以每小时43.2TB的速度备份各种类型的数据,并且能够存储最高1.6PB的数据。你可以根据需要,在每个集群中扩展至八个性能节点,并且通过增加扩展柜来提升容量。

  S2100-DS3则可用于分公司的数据保护,并且可以将数据复制到企业级系统或灾难恢复站点中。其还具备高达每小时5.4TB的备份性能,以及远程备份、重复数据删除、复制和恢复管理功能。这两款Sepaton系统还同时包含安全擦除技术,能够随着数据保存要求到期,用于可审计的VTL磁带损坏来释放磁盘容量。

  保护大数据环境需要重新考虑如何利用已有的工具,并且借鉴新的技术来满足数据增长的需要。找到一些方法来减少你需要保护的数据,并且扩展你的保护环境,是确保关键数据能从灾难性的系统故障中得以保存的关键。

作者: 佚名

来源: IT168

原文标题:大数据最佳实践:不要拿你的备份冒风险

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
25天前
|
数据采集 分布式计算 OLAP
最佳实践:AnalyticDB在企业级大数据分析中的应用案例
【10月更文挑战第22天】在数字化转型的大潮中,企业对数据的依赖程度越来越高。如何高效地处理和分析海量数据,从中提取有价值的洞察,成为企业竞争力的关键。作为阿里云推出的一款实时OLAP数据库服务,AnalyticDB(ADB)凭借其强大的数据处理能力和亚秒级的查询响应时间,已经在多个行业和业务场景中得到了广泛应用。本文将从个人的角度出发,分享多个成功案例,展示AnalyticDB如何助力企业在广告投放效果分析、用户行为追踪、财务报表生成等领域实现高效的数据处理与洞察发现。
52 0
|
3月前
|
安全 关系型数据库 MySQL
揭秘MySQL海量数据迁移终极秘籍:从逻辑备份到物理复制,解锁大数据迁移的高效与安全之道
【8月更文挑战第2天】MySQL数据量很大的数据库迁移最优方案
670 17
|
4月前
|
存储 分布式计算 监控
日志数据投递到MaxCompute最佳实践
日志服务采集到日志后,有时需要将日志投递至MaxCompute的表中进行存储与分析。本文主要向用户介绍将数据投递到MaxCompute完整流程,方便用户快速实现数据投递至MaxCompute。
201 2
|
3月前
|
存储 设计模式 分布式计算
面向对象编程在大数据处理中的最佳实践
【8月更文第12天】随着互联网和物联网技术的发展,数据量呈指数级增长,大数据处理已成为现代企业不可或缺的一部分。大数据处理通常涉及收集、存储、管理和分析海量数据集。传统的数据库管理系统难以应对这样的挑战,因此出现了诸如Hadoop、Spark等分布式处理框架。这些框架通常使用面向对象编程(OOP)来构建可扩展、可维护的应用程序。本文将探讨如何利用面向对象编程的原则和模式来优化大数据处理任务。
95 0
|
5月前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之备份的数据是否分区数或记录数限制
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
6月前
|
存储 运维 监控
大数据分析平台之 OLAP 架构的最佳实践
本文将分享聚水潭云原生 OLAP 架构的最佳实践。
|
SQL 弹性计算 分布式计算
阿里云李腾飞:基于ECS倚天实例的大数据加速最佳实践
2023年9月14日,系列课程第八节《基于ECS倚天实例的大数据加速最佳实践》正式播出,阿里云弹性计算大数据优化负责人李腾飞主讲,内容涵盖倚天大数据场景迁移适配、倚天大数据性能加速实践和倚天大数据场景落地实践。
阿里云李腾飞:基于ECS倚天实例的大数据加速最佳实践
|
机器学习/深度学习 大数据
机器学习lgb全国大数据创新应用大赛用户贷款风险预测 完整代码数据 可直接运行
机器学习lgb全国大数据创新应用大赛用户贷款风险预测 完整代码数据 可直接运行
139 0
|
SQL 分布式计算 安全
大数据生态安全框架的实现原理与最佳实践(下篇) 2
大数据生态安全框架的实现原理与最佳实践(下篇)
|
SQL 安全 大数据
大数据生态安全框架的实现原理与最佳实践(下篇) 1
大数据生态安全框架的实现原理与最佳实践(下篇)
下一篇
无影云桌面