为什么重复数据删除对于云存储而言如此重要?

简介:
  【51CTO.com快译】大多数人认为云存储服务较实体存储更便宜。毕竟大家可以根据性能与访问需求以每TB每年276美元甚至更低的价格租用存储资源。相比之下,企业数据仓库的每TB每年使用成本一般在2500美元到4000美元之间。

然而除了一级数据之外,大家还需要在云环境下对数据进行备份或者副本保存,这无疑会令资源使用支出大幅提升。设想一下,若企业需要以三年为周期每月保留100 TB备份数据,则其原始备份数据约等于3.6 PB,每月支出将超过83000美元。而且这还不算数据访问以及检索带来的成本。

正因为如此,高效的重复数据删除技术对于内部及云存储体系皆极为重要,特别是在企业需要长期保留其归档数据的情况下。事实证明,如果无法进行重复数据删除处理,云环境下的存储资源使用成本将迅速提升至无法接受的水平。

云存储

云存储的承诺:成本低廉、可扩展、永远可用

云存储一直被视为一种廉价、可靠且能够无限扩展的资源——事实也基本就是如此。AWS S3等对象存储服务每月每TB的标准层使用成本仅为23美元,连续访问层则为每TB 12.5美元。众多现代应用已经能够发挥对象存储的既有优势。云服务供应商提供自己的文件或者块存储选项,例如AWS EBS每月每TB块存储资源成本为100美元,且可按小时计费。亦有不少第三方方案可作为后端用于将传统文件或块存储同对象存储系统对接。

即使是每年每TB 1200美元的AWS EBS,其使用成本也仅为内部解决方案的二分之一到三分之一,而且后者还需要更高昂的前期投入。正因为如此,企业纷纷选择云存储以降低运营成本及前期投入,且享受由此带来的按使用量计费收益(而非像传统方案那样购置远超实际需求的资源容量)。

云存储成本的爆表之路:无穷无尽的副本

云存储与传统内部存储间的成本差异在于,前者的成本要素更为分散。云存储的成本要素主要包括

1)一级数据存储成本,包括对象或者块存储。

2)副本、快照、备份或数据归档的成本。

3)数据传输成本。

第一项之前已经讨论过了,下面看看后两项。

数据副本。这与您存储在云内的具体数据量无关——上传数据并不收费,而且存储单一副本也用不了多少投入。最可怕的是保存多份数据副本——包括备份、归档或者其它需求——这会在不经意间带来可怕的支出。即使大家并未主动进行数据复制,应用程序或数据库的内置数据冗余与数据复制功能亦会默认扩大资源需求。

在云环境中,每套副本都会产生与原始对象相同的成本。虽然云供应商可能会在后台进行重复数据删除或压缩,但这种情况并不常见。以消费级云存储服务Dropbox为例,复制十套文件副本即会占用十倍的存储配额。

对企业而言,这意味着快照、备份与归档数据都会产生额外费用。举例来说,AWS EBS的每月存储快照成本为每GB 0.05美元。虽然快照会进行压缩并仅存储增量数据,但由于不具备重复数据删除机制,100 TB数据集的快照每年需要花费60000美元。

数据访问。公有云供应商通常会向不同云服务区或者云外部间的数据传输收费。例如在不同Amazon服务区间移动或复制1 TB的AWS S3数据会带来20美元成本,而将其移动至互联网的成本则为90美元。事实上,GET、PUT、POST、LIST以及DELETE等请求都会产生对应的数据访问成本。

重复数据删除对于云存储的重要意义

云应用在设计上具备分布式特性,且标准部署在非关系型大规模可扩展数据库内。在非关系型数据库中,即使不进行复制,大多数数据仍然属于冗余信息。以MongoDB或者Cassandra为例,其复制因子为3,意味着为了确保数据完整性,其会在分布式集群中保留3份副本。

备份或者次级副本通常由快照进行创建及维护。数据库体系结构决定当我们保存快照时,实际上同时也制作出了三份副本。

不仅是重复数据删除——还有重复语义删除

大多数重复数据删除技术作用于存储层,即对数据块进行重复删除。这种作法对于SAN或NAS等集中式存储非常有效,但却不太适用于MongoDB等分布式数据库的数据层。在这一领域,重复删除技术需要解决两大基本问题:

1)需要立足数据层起效,而非存储层。为了在分布式集群中实现重复数据删除,软件需要理解并解释底层数据结构。

2)需要抢在冗余数据被写入数据库前将其清除。一旦数据写入,则会在集群内进行复制,这意味着必须利用实时重复数据删除方可解决。

 
  作者:核子可乐
 
来源:51CTO
目录
相关文章
|
缓存 安全 网络安全
ingress 因为HSTS引发307跳转问题
ingress 因为HSTS引发307跳转问题
|
安全 Java 数据库连接
基于dataX实现多种数据源数据汇聚(二)
上一篇文章提到在数据中台项目实践过程中,基于dataX实现数据汇聚的一些使用心得,在众多项目中,发现一个趋势,国产数据库的发展趋势,越来越多的企业要求国产化保障核心资产的安全。本章节主要介绍国产数据的安装、连接、与归集的知识。涉及场景的国产数据库如下: 1、达梦 2、人大金仓(后续补充) 3、南大通用(后续补充)
3168 0
基于dataX实现多种数据源数据汇聚(二)
|
安全 算法 网络安全
一篇文章让你彻底弄懂SSL/TLS协议
一篇文章让你彻底弄懂SSL/TLS协议
一篇文章让你彻底弄懂SSL/TLS协议
|
关系型数据库 MySQL PostgreSQL
MySQL和PostgreSQL的常用语法差异
背景 在去年的DBMS评比中,PostgreSQL夺冠,PostgreSQL一直保持上升姿态,越来越多的客户选择使用PostgreSQL,还有一部分客户从MySQL迁往PostgreSQL,那PostgreSQL和MySQL对于开发者来说的差异在哪里呢?末学对比了下语法差异,不一样的地方用红色标记了出来,供大家参考。
14684 0
|
8月前
|
机器学习/深度学习 人工智能 搜索推荐
机器会“看病”?深度学习正在颠覆医学成像!
机器会“看病”?深度学习正在颠覆医学成像!
541 10
|
消息中间件 Dubbo 应用服务中间件
分布式事物【Hmily实现TCC分布式事务、Hmily实现TCC事务、最终一致性分布式事务解决方案】(七)-全面详解(学习总结---从入门到深化)
分布式事物【Hmily实现TCC分布式事务、Hmily实现TCC事务、最终一致性分布式事务解决方案】(七)-全面详解(学习总结---从入门到深化)
555 0
|
9月前
|
人工智能 Kubernetes Cloud Native
MSE Nacos Controller:为 Kubernetes 生态构建配置管理与服务发现的桥梁
在企业云原生转型过程中,如何实现传统微服务与 Kubernetes 服务的配置统一管理、服务互通及协议转换成为关键挑战。MSE Nacos Controller 应运而生,作为连接 Kubernetes 与 Nacos 的桥梁,支持 ConfigMap 与 Nacos 配置双向同步、服务自动注册发现,并助力 Higress 等 MCP 网关实现 REST API 向 AI 可调用 MCP 服务的转换,全面提升系统治理能力与智能化水平。
784 32
|
安全 缓存 容器
2025 年 WordPress 主机托管深度测评
本测评针对全球23家主流主机商,基于120天实时监测与300+技术指标,筛选出5家优秀WordPress托管方案。从基础性能(响应时间、加载速度等)、技术适配(容器化支持、缓存机制等)、服务保障(技术支持、安全防护等)到性价比模型,全方位评估。推荐方案涵盖性能优先型(CloudPress Pro)、成本敏感型(BlueHost Premium)、技术开发型(SiteGround GoGeek)等,满足不同需求。报告还洞察行业趋势,如容器化普及、Serverless探索及AI驱动优化,为用户选型提供科学依据。测评数据来自2025年1-3月实测,保持中立客观立场。
511 0
2025 年 WordPress 主机托管深度测评
|
存储 安全 编译器
【.NET Core】记录(Record)详解
【.NET Core】记录(Record)详解
706 1
|
人工智能 搜索推荐 数据挖掘
云上数字营销:重塑企业营销新生态
AI技术将在云上数字营销中发挥越来越大的作用。企业可以利用AI技术实现自动化营销和智能客服等功能,提高营销效率和用户体验。同时,AI技术还可以帮助企业进行智能分析和预测,为企业的营销