“ZB时代”,我们不愿意删除任何数据

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 一位大型数据中心管理者所言,“如果你管理着几十TB的数据,那么你看磁带可能是个傻瓜。如果你管理的是几百TB数据,那么你需要深入考虑磁带。如果你管理着几PB,甚至几十、几百PB或EB级的数据,那么你别无选择,只能利用现代磁带。”

我们正处于“ZB时代”,我们不愿意删除任何数据。

“数据就是新石油”,这句话似乎已是陈词滥调,但至少证明它所陈述的是一种事实。尽管数据不会像石油一样燃烧,却总是可以从中挖掘出巨大的价值。

从21世纪初的“数据池”,到2010年变成了“数据湖”,再到2015年成长为“数据海洋”。直至今日,其已演变成庞大的、数百万PB的“数据宇宙”。

每天新增的数据量已经多到无法估量,但可以肯定的是,在未来,这种态势仍将持续,且没有终点。

“无限”数据保留期

当被问及,“您所在企业的数据必须保留多长时间?从90天、1年、5年、10年、50年,甚至是无限期?” 负责管理大型(50 PB-500 PB)数据的管理者的答案都超乎寻常地一致——“不确定,但肯定越久越好”。

特别是科学、企业、政府公共记录和媒体/娱乐存储基础设施,其100%的数据都需要保留,其中原始存档数据都已经有20年以上的历史,并且还在不断地增长。负责企业数据的高管们都有同样的担忧——多年甚至几十年地保存数据的成本将无休止地上扬

企业合法合规地删除“老化数据”(如年代久远的电子邮件)似乎成为一种可能,但是无法获得任何可靠的承诺,因为没有人能够准确预测,在5年或者10年之后,这些老旧的数据是否还有价值。

不断增长的冷/冻数据

我们正在创建越来越多的数据,删除越来越少的数据...…

根据访问频率,可以将企业数据细分为热(纳秒到毫秒)、温(毫秒到秒)、凉(几分钟到24小时)、冷(几天到几周)和冻(几周到几年甚至更长时间)。

所有类型的数据量都在持续地扩大,但所占百分比也在发生变化。2020年-2030年,预计热数据和温数据将从年总量的25%左右(8%热,17%温)降低至约20%(7%热,13%温);同时,凉数据与冷数据将稳定地保持在年总量的20%和25%;而冻数据则将从年总量的30%扩展至35%。

据预测,用于管理冷/冻数据(访问频率从几天到几年不等)的企业存储容量的新出货量将在2023年接近1ZB,并在2030年扩展到约6.8ZB。

数据的安全性和不变性

数据的不变性(原始数据的所有方面都必须保持不变)是一个越来越重要的问题。

磁盘和SSD通常用于100%在线的工作领域,具有有限的加密和不变性属性,其部署时间很少超过五年,通常只有三年。而随着时间的推移,磁盘和SSD都极易出现不可避免的失败。因此提供有限或“离线”的保护,以防止数据被篡改或数据丢失显得非常必要

磁带则提供了“离线”的数据安全性,并保证了一次写入多次读取的不变性,以及长达50年保质期。与SSD或磁盘相比,磁带每GB的初始购置成本要低得多。

无法忽视的“可持续发展”

SSD、磁盘和磁带成本之间最显著的区别是功耗,这主要是因为绝大多数盒式磁带不会安装于磁带驱动器中,而是离线放置,消耗最少或根本不消耗电能。此外,磁带系统几乎不会存在散热问题,因此也不会产生高额的冷却降温费用。

与数据安全性和不变性一样,数据可持续性成本随着时间的推移越来越成为企业关注的焦点。对于数年、数十年甚至数百年的数据保留,不仅每GB的初始成本是一个关键问题,能耗、空间和技术更新的需求将在未来数据中心的战略规划中发挥更为决定性的作用。

但很明显,磁盘和SSD正在以极高的成本管理着大量的冷/冻数据,同时消耗过多的能源。从逻辑上讲,磁带更为适合冷/冻数据的存储

正如一位大型数据中心管理者所言,“如果你管理着几十TB的数据,那么你看磁带可能是个傻瓜。如果你管理的是几百TB数据,那么你需要深入考虑磁带。如果你管理着几PB,甚至几十、几百PB或EB级的数据,那么你别无选择,只能利用现代磁带。”

关于作者

本文作者John Monroe已经在存储行业工作了40多年。

  • 1980年,John Monroe开始在Electrolabs负责销售IC、电源、电缆、显示器、打印机、8英寸软盘驱动器和8英寸磁盘。
  • 从1983年到1988年,他是Media Winchester有限公司的部分所有者和总经理,该公司是一家存储产品分销商和集成商,是希捷公司的首届“超级VAR”之一。
  • 从1988年到1990年,他是Kalok公司(一家初创HDD制造商)的北美销售总监。
  • 从1990年到1997年,他是SYNNEX信息技术公司(现为TD SYNNEX)所有存储线的副总裁。
  • 1997年起,Monroe在Gartner任职副总裁分析师。

*本文编译自John Monroe的文章《Storage Management in an Age of Minimal Data Deletion》,有删节。

相关文章
|
2月前
|
存储 监控 关系型数据库
单条记录大小增长倍数和ibd文件大小的增长倍数不成正比
【8月更文挑战第16天】若单条记录大小增长与IBD文件大小增长不成正比,原因可能包括:1) 索引影响:索引维护及结构调整需额外空间;2) 碎片问题:数据增删改造成空间利用率下降;3) 事务处理:日志记录增加文件大小;4) 并发操作:预留空间防死锁提性能;5) 缓冲池设置不当致频繁磁盘I/O;6) 存储引擎参数如文件每表设置影响文件增长。解决方法包括定期优化数据库、调整配置参数、监控事务并发操作及使用数据压缩技术。
ABB KUC711AE101 3BHB004661R0101 用于以压缩形式存档数据
ABB KUC711AE101 3BHB004661R0101 用于以压缩形式存档数据
ABB KUC711AE101 3BHB004661R0101 用于以压缩形式存档数据
数据包络分析(DEA)
数据包络分析方法(Data Envelopment Analysis,DEA)是评价多输入指标和多输出指标的较为有效的方法,将多投入与多产出进行比较,得到效率分析,可广泛使用于业绩评价。
900 0
数据包络分析(DEA)
|
传感器 数据处理
Landsat系列卫星全球参考系统,指定的PATH和ROW编号详细介绍
Landsat系列卫星全球参考系统,指定的PATH和ROW编号详细介绍
309 0
Landsat系列卫星全球参考系统,指定的PATH和ROW编号详细介绍
|
存储
单位换算】存储单位(bit Byte KB MB GB TB PB EB ZB YB BB)时间单位(ms μs ns ps)长度单位(dm cm mm μm nm pm fm am zm ym)
单位换算】存储单位(bit Byte KB MB GB TB PB EB ZB YB BB)时间单位(ms μs ns ps)长度单位(dm cm mm μm nm pm fm am zm ym)
540 0
|
Oracle 关系型数据库
[20171203]平均长度和虚拟列.txt
[20171203]平均长度和虚拟列.txt --//昨天看链接https://blog.dbi-services.com/doag-2017-avg_row_len-with-virtual-columns/ --//重复测试看看.
942 0