海量冷数据存储关键技术

简介:

近年来,移动互联网、物联网、云计算的快速发展催生并积累了大量的用户、业务数据。据市场调研机构IDC预计,未来全球数据总量年增长率将维持在50%左右,到2020年,全球数据总量将达到40ZB。据统计,这些海量数据中只有10%~15%的数据是被经常访问的,而绝大部分都会在产生之后逐渐变冷。这些“冷数据”的访问率虽然很低,但用户还是希望保留这些数据,对于企业而言,还有很多数据需要进行备份和存档。

且不管数据的冷热及其冗余备份,如果将这40ZB的数据都使用目前已量产的最大容量蓝光盘来存储,按照单盘容量300GB计算,则需要1300多亿张盘;如果使用10TB的机械硬盘来存储,需要40亿个硬盘;如果采用磁带库来存储,目前也有量产的10TB磁带,按照这个存储能力计算,也需要40亿个磁带。这不仅为数据存储行业带来了巨大的市场空间,同时也对海量数据的存储、处理和管理能力提出了前所未有的挑战。

海量冷数据存储面临诸多挑战

首先,面对快速增长的数据存储需求,成本是需研究的首要问题。如果只从物理上增加存储容量,则必然导致存储数据的成本持续、快速增加,且将受制于机房空间、供电能力等其他因素而难以为继。

其次,是冷热数据的分级。业界根据数据的访问频次将数据分为热数据、温数据和冷数据,但具体到海量的数据,哪些属于冷数据,应该相应采用什么存储策略、存储方式,则是一个需要长期研究探索、实践积累的问题。

再者,海量的已存数据的维护也成为新的挑战。一方面需要定期检测存储介质的健康情况及数据的完整性,在发现坏盘的情况下及时进行更换;另一方面是数据的搬迁,存储介质大都有相对固定的使用寿命,在设备生命周期结束之后,需要将数据迁移到新的存储介质上。

海量数据的价值体现是又一挑战。海量数据的存储必然占用一定的成本,而数据的存储价值并非只是为了保存,而是在需要的时候能够被尽可能快地找到。为用户提供尽可能好的访问体验,这就要求海量数据存储具备可快速查询的能力。

最后,数据的安全也是海量冷数据存储的一大挑战。一方面是数据的可靠性,即数据的冗余备份。数据的存储最基本的要求就是数据不丢失,目前最常用的办法就是对数据进行多副本的冗余保存,或者采用可恢复数据的校验方法。这种冗余存储在本来就海量的基础上又增加了一定比例的数据量,而海量数据的存储通常需要大量的存储设备和其他配套设备,在相同的故障概率下,可能发生故障的设备也就相应较多,因此这些设备的定期巡检、故障定位和维修更换,都因“海量”而极具挑战。另一方面是数据的隐私保护,即数据的访问权限控制。由于大量的数据被聚集在一起,当发生数据泄露时,泄露的数据将会更多,甚至可能包括比攻击目标更加重要的数据。此外,海量的数据也增加了数据被篡改的风险,影响数据的实际价值。

为了实现用尽可能低的成本获得尽可能持久、敏捷、可靠、安全的数据存储,海量冷数据的存储面临着诸多挑战,同时也给产业链上下游企业带来了更多的发展机遇,从存储介质、控制器、数据中心等硬件技术,到数据分级、数据压缩、冗余备份等软件技术,相关企业都在进行相应的技术攻关,也取得了很多突破性的发展。

海量冷数据存储的关键技术

一是数据的分级,主要是指从海量的数据中根据文件的访问频率、价值等因素,进行冷热数据的分类,甚至分出更细的数据类型,如“温数据”、“冰数据”等。目前常见的数据分级方法主要有两类,一类是业务数据的分类,即基于具体的业务类型,结合长期以来的运营经验,进行运营级的数据分类。另一类是基于数据存取特性的分类,即借助存储软件系统自动进行数据的冷热分级。通过存储软件系统对数据进行冷热监控,统计分析一个时间周期内的IO冷热程度,并按照设定的分类策略自动进行数据的分类,并将冷数据从前端业务存储系统迁移到冷数据存储系统。

二是存储密度的提升,几乎所有的存储部件厂商都在努力通过提升单盘的存储容量来应对数据的快速增长。在磁、光存储密度快速提升的同时,电存储也表现出色,32TB的SSD盘已经问世,且预计未来还有更大的增长空间。

三是数据的压缩去重,提高有效数据的存储比例。为了提升数据存储的可靠性,通常会对数据进行多副本存储,但多副本的方式会带来存储数据量的倍增。为了进一步提升存储效率,在一些读写性能要求较低的场景下,可以选择只保存校验数据。

四是运营能力的提升,海量数据的存储需要更智能化的运维系统,包括对数据的定期巡检、数据的精细化分类、自动化的数据迁移、故障预测及定位、设备的休眠等机房节能措施。此外,存储的架构设计也是当前的研究热点,包括设备的分级、存储介质的选型、数据存储格式、数据检索、对外服务接口等。

此外,数据访问延迟、整体读取速率以及数据持久性等,也是海量冷数据存储的关键技术。这些关键技术相互制约影响,尤其是在运营能力提升方面,涉及的因素众多,对冷数据存储的选型提出了新的挑战。

海量冷数据存储选型策略

国内外大型互联网企业已根据自身的业务特点,结合多年的运营经验和业务预测,进行存储架构的整体设计,并基于其在冷存储方面的经验和技术积累,对外提供了相关的冷数据存储服务。以亚马逊网络服务推出的“AWS冰川”数据存储服务为例,用户可以采用它来存储无限量的数据,并建立存储库列表进行管理,包括各种档案的生命周期管理和访问策略。此外,还有谷歌公司提供的“近线云存储”服务,以及微软公司提供的“CoolBlob”存储产品,都是具有一定代表性的海量冷数据存储服务,而它们都有一个共同的特点就是“无限量”。

对于数据量较小且在快速增长的企业而言,可以选择使用一部分的云存储服务,同时也逐步探索建设自己的数据存储中心。

海量冷数据存储的关键还在于运营,在于存储策略和业务需求的匹配程度,因此,还需积极参与各种社区、联盟组织活动,借助产业发展的力量,更多地借鉴先行者的经验,了解行业的技术发展情况,及时更新制定适合自身需求的存储架构和技术路线。

本文转自d1net(转载)

目录
相关文章
|
存储 运维 数据挖掘
技术干货:腾讯云为什么选择磁带库?
随着全球冷数据的持续爆炸,以及磁带介质数据密度提升的巨大潜力,磁带库的前景充满想象力。这篇文章讲述了磁带库在腾讯大规模落地的技术故事。
3451 0
Halcon找圆系列(1)如何检测圆形
Halcon找圆系列(1)如何检测圆形
3102 0
Halcon找圆系列(1)如何检测圆形
|
9月前
|
数据采集 机器学习/深度学习 算法框架/工具
Python:现代编程的瑞士军刀
Python:现代编程的瑞士军刀
479 104
|
存储 缓存 自然语言处理
评论功能开发全解析:从数据库设计到多语言实现-优雅草卓伊凡
评论功能开发全解析:从数据库设计到多语言实现-优雅草卓伊凡
383 8
评论功能开发全解析:从数据库设计到多语言实现-优雅草卓伊凡
|
9月前
|
机器学习/深度学习 人工智能 负载均衡
在 Ray Data 和 Ray Serve 中推出原生 LLM API
https://www.anyscale.com/blog/llm-apis-ray-data-serve 译文
|
安全 编译器 C++
Microsoft Visual C++ Redistributable的作用主要体现以及可以删除吗?
这些是Microsoft Visual C++不同版本的Redistributable安装包,用于32位系统,确保相关应用正常运行。它们提供C++运行时环境,简化部署流程,支持第三方库及框架,并确保应用兼容性。定期更新可修复问题并引入新功能。在空间有限或需解决程序冲突时可考虑删除,但需谨慎操作以防影响应用稳定性和兼容性。删除前请确认无应用依赖,并通过控制面板安全卸载。
3797 1
Microsoft Visual C++ Redistributable的作用主要体现以及可以删除吗?
|
人工智能 自然语言处理 数据可视化
清华大学104页PPT《DeepSeek从入门到精通》分享
清华大学发布的《DeepSeek从入门到精通》PPT共104页,系统讲解了这款由清华团队研发的开源通用人工智能工具。内容涵盖DeepSeek的功能、应用场景及优化策略,帮助用户从零开始掌握文本生成、语义分析、编程辅助等核心技能,并提供实战提示语模板和避坑指南。下载链接:[夸克网盘](https://pan.quark.cn/s/aaf63504a246)。
1502 3
清华大学104页PPT《DeepSeek从入门到精通》分享
|
人工智能 自然语言处理 JavaScript
我定制的通义灵码 Project Rules,用 AI 写出“更懂我”的代码
本文分享了一名全栈开发者使用通义灵码的经验,重点介绍了其新推出的“Project Rules”功能。通过定制规则,解决了团队代码风格不统一、AI生成代码不符合项目规范等问题。示例配置包括Vue 3 + Composition API的语法规范、命名约定、注释风格等。作者总结,该功能显著提升了编码效率和团队协作一致性,并建议用户根据自身需求定制规则以优化体验。文中还提出了对团队规则共享、行业模版内置等功能的期待。
|
Java API 开发工具
一个专为Android平台设计的高度可定制的日历库
Calendar库是Android开发的工具,支持RecyclerView和Compose,提供高度定制的日历组件。功能包括:单选/多选/范围日期选择、周/月模式、禁用特定日期、设置边界、自定义视图、每周起始日、滚动方式、热力图、标题和脚注、滑动导航及兼容低版本API。示例应用和源码可在GitHub找到,通过Gradle集成,有详细文档指导。
667 16
|
机器学习/深度学习 人工智能 自然语言处理
PVG:用小模型验证大模型输出,解决“黑盒”难题
【8月更文挑战第4天】随AI技术的发展,机器学习系统广泛应用,但在高风险领域如医疗和金融中,其决策需可验证与解释。为此,提出了“Prover-Verifier Games”(PVG)框架,通过两个学习者——证明者与验证者的博弈,前者提供决策及证据,后者评估证据真伪并做决策,以此提升决策透明度。实验显示,在图像分类和自然语言推理任务中,验证者能有效区分真假证据,即便证明者提供虚假信息。不过,PVG也面临计算成本高和适用范围有限等问题。
585 1