80%以上是冷数据!昆腾的数据归档之道

简介: 中国的冷、温、热数据分别占比80%、15%和5%,冷数据是最多的。而对于冷数据来说,计算不是常态,主要是存储。中国算力中心的“存力”相对不足,中国数据存储产业大有可为。

在近日举行的2023年世界半导体大会上,权威人士表示,中国算力中心的“存力”相对不足,中国数据存储产业大有可为。


一年前,在2022年举行的首届中国算力大会上,就有权威人士曾指出,中国的冷、温、热数据分别占比80%、15%和5%,冷数据是最多的。而对于冷数据来说,计算不是常态,主要是存储。



当前,企业和组织正在生成和存储PB量级甚至EB量级的非结构化数据,如视频、高精图像、物联网数据等,这些数据大部分都是冷数据,需要保存数年甚至数十年之久


“冷温热”数据的区分及价值


对于数据的分类,有很多维度,但目前业界普遍达成的共识是以“数据的温度”为基准,把数据分为热、温、冷几个层次。


什么是数据的温度?其实就是数据的使用频度。数据被使用的频度越高,其“温度”越高,反之则越低。


热数据的使用频度最高,常见的如交易数据、用户的Cookies等。温数据的使用频度其次,通常按月或年的频率使用,比如网站数据、企业业务数据等。


冷数据实际就是归档数据,比如存放在网盘的照片,通常都是数月或者一两年才会访问一次。还有一种冷数据,一旦存储之后访问频度非常之低。但是为了满足合规要求,这些数据必须保存很长的时间,通常是数年甚至数十年之久。最为常见的是,医院的影像数据、档案馆的档案数据等。


数据温度的分类,可以这样通俗地去理解。它与书架放书的道理差不多,“经常要看的书放近点,不看的书放高一点,远一点”。


看到这里,您可能会有疑问,为什么要这样去做数据的分类?


其实很简单,区分热、温和冷数据的主要好处在于节省数据存储成本和提升在线数据查询性能。


昆腾:专注于海量数据的归档


对于数据的归档,磁带是最佳的选择介质,其能够将数据安全保存50年以上,而且LTO磁带驱动器向下兼容两/一代,因此可以让用户非常便捷地检索十几年前存入的数据。



长久以来,LTO磁带一直在为不同行业的用户提供成本最低的长期存储解决方案,对于PB量级的数据集,采用磁带解决方案的成本,对比公有云和其他冷数据存储解决方案,有着非常大的优势。昆腾的Scalar磁带系统拥有着对设备空间的高效设计、iLayer主动诊断和分析功能、自动监控和报告生成功能,以及与基于云端的AIOps软件实现的深度集成,不但大大减少了系统设备所需要的管理时间,更进一步降低了系统的总体拥有成本


昆腾Scalar磁带库采用的是模块化的设计,可大大简化为实现容量和性能的增长而需要的存储槽位与驱动器的添加工作。容量随需应变(CoD)槽位许可,提供了更为细化的存储粒度级别,可以通过按需付费的方式,更好地管理存储成本


昆腾Scalar系列磁带库是市场上最安全的磁带库系统,拥有超过25项的独特功能,形成了一套覆盖面极为广泛的安全架构,其中包括有系统访问控制,系统监控和事件检测,数据安全和加密,以及网络保护和数据完整性检查等等。


昆腾Scalar系列磁带库具备全面的高可用特性,提供确保系统保持可操作和可访问的状态。冗余电源和路径故障转移(通过机器臂控制和数据路径)提供了企业级系统所必需的容 错能力。此外,通过内置在iLayer软件中的智能功能,还可以提供更高级别的可用性作为高级功能,包括对环境和电源供应的监控,主动诊断、针对磁带介质和磁带驱动器的报告可以识别系统的整体运行情况,并在故障发生前通知用户系统所存在的潜在问题——并启用对磁带库系统的主动控制,以确保最大限度的正常运行时间。


昆腾Scalar系列磁带库的优势

相关文章
|
存储 运维 数据挖掘
技术干货:腾讯云为什么选择磁带库?
随着全球冷数据的持续爆炸,以及磁带介质数据密度提升的巨大潜力,磁带库的前景充满想象力。这篇文章讲述了磁带库在腾讯大规模落地的技术故事。
3093 0
|
存储 运维 安全
磁带存储技术演进简史
磁带使用的磁颗粒的密度,被证实可线性增加。当前的LTO磁带采用钡铁氧体磁体,单盘磁带的容量可以做到220TB;而采用锶铁氧体磁体的LTO磁带,单盘容量将轻松达到580TB!LTO技术联盟正是通过改进磁体颗粒密度的方法使得每盒磁带的容量得到巨大的提升,并已经在实验室研制出单盘容量为580TB的磁带产品。
1249 0
|
机器学习/深度学习 存储 人工智能
AI浪潮下,大模型如何在音视频领域运用与实践?
LiveVideoStackCon2023深圳站,阿里云视频云演讲分享
852 1
|
缓存
银河麒麟server-V10配置镜像源
银河麒麟server-V10配置镜像源
18558 1
|
资源调度 分布式计算 监控
|
机器学习/深度学习 人工智能 达摩院
10万亿!达摩院发布全球最大AI预训练模型M6
今天,阿里巴巴达摩院公布多模态大模型M6最新进展,其参数已从万亿跃迁至10万亿,成为全球最大的AI预训练模型。
8982 0
10万亿!达摩院发布全球最大AI预训练模型M6
|
存储 人工智能 NoSQL
表格存储:为 AI 注入“记忆”,构建大规模、高性能、低成本的 Agent Memory 数据底座
本文探讨了AI Agent市场爆发增长背景下的存储需求,重点介绍了Tablestore在Agent Memory存储中的优势。2025年被视为AI Agent市场元年,关键事件推动技术发展。AI Agent的存储分为Memory(短期记忆)和Knowledge(长期知识)。Tablestore通过高性能、低成本持久化存储、灵活的Schemaless设计等特性满足Memory场景需求;在Knowledge场景中,其多元索引支持全文、向量检索等功能,优化成本与稳定性。实际案例包括通义App、某浏览器及阿里云多项服务,展示Tablestore的卓越表现。最后邀请加入钉钉群共同探讨AI技术。
2389 14
|
分布式计算 DataWorks 数据处理
"DataWorks高级技巧揭秘:手把手教你如何在PyODPS节点中将模型一键写入OSS,实现数据处理的完美闭环!"
【10月更文挑战第23天】DataWorks是企业级的云数据开发管理平台,支持强大的数据处理和分析功能。通过PyODPS节点,用户可以编写Python代码执行ODPS任务。本文介绍了如何在DataWorks中训练模型并将其保存到OSS的详细步骤和示例代码,包括初始化ODPS和OSS服务、读取数据、训练模型、保存模型到OSS等关键步骤。
770 3
|
存储 编解码 算法
ans介绍学习
【9月更文挑战第5天】
1921 14
|
编译器 C++ 开发者
C++一分钟之-属性(attributes)与属性语法
【7月更文挑战第3天】C++的属性(attributes)自C++11起允许附加编译器指令,如`[[nodiscard]]`和`[[maybe_unused]]`,影响优化和警告。注意属性放置、兼容性和适度使用,以确保代码清晰和可移植。示例展示了如何使用属性来提示编译器处理返回值和未使用变量,以及利用编译器扩展进行自动清理。属性是提升代码质量的工具,但应谨慎使用。
497 13