1 摘要
大数据时代,数据是最有价值的资源。海量非结构化数据爆发式增长,其中 80% 为冷数据,为企业IT 预算带来了巨大的成本压力。企业需要长期保持这些有价值的数据,需要存储系统支持冷热分层的存储介质和具备生命周期管理能力。
阿里云文件存储服务 NAS 做为阿里云重要存储产品,提供了传统的文件接口,服务着很多用户。随着阿里云业务的快速增长,文件存储服务的存储规模也连续每年保持着 100% 以上的增长速度,不但吸引着众多的新用户使用文件存储,同时现有用户的数据规模也在快速增长。
阿里云文件存储 NAS 为了解决用户面临的挑战,推出了通用型 NAS 低频介质和生命周期管理能力。低频介质是针对不频繁访问的冷数据提供的一款低成本,大容量的存储类型,在统一文件系统命名空间下,通过生命周期管理能力,通用型 NAS 可以透明的将一段时间内未被访问的冷数据自动迁移至低频介质,达到降低数据存储成本的目标。
当前,通用型 NAS 支持 14 天、30 天、60 天和 90 天这 4 种自动迁移策略,迁移至低频介质中的文件您仍然可以进行直接读写,读写时我们会自动的将低频介质中的数据加载回通用型 NAS 进行缓存,保证短时间内的再次读写性能。
低频介质收取 0.06 元 每 GB 的数据读写费用,适用于不经常访问的冷数据的应用场景,如AI/HPC 的海量数据集存储,Web 服务和内容管理冷数据共享存储,多媒体音视频的线上媒体库以及容灾备份的冷备数据应用场景。
如果您发现有部分文件被频繁读写,您可以随时将指定的低频介质的数据进行取回,避免产生低频介质数据的多次读写费用(需要注意,取回数据产生一次读取低频费用)。同时,支持检索和查看低频介质上的文件,让您轻松掌握数据分布情况,准确核算和优化存储成本。
低频介质的月存储费用低至 0.15 元每 GB,根据我们的统计,当启用生命周期管理功能后,和用户当前使用的通用性能型文件系统相比,相同存储量的使用成本降幅最大可达 92%。
最后,低频介质和通用型 NAS 配合使用,保持文件访问方式不变,前端应用无感知,轻松管理冷数据,实现生命周期管理和智能数据分层,降低存储 TCO 成本。
2 低频 NAS 浅析
2.1 全新推出低频介质,可以将文件存储 NAS 的成本降低 92%!
阿里云文件存储推出了低频 NAS 存储,价格 0.15 元/GB/月。
阿里云的文件存储 NAS 通过配置存储生命周期管理技术实现了全面降价,最高降幅可达 92%
低频 NAS 单价 ¥0.15 元/ GB /月,相对价格最高的性能型 NAS ¥ 1.85 元/ GB /月,成本最高降低 92% (100% 数据都在低频,访问很少的极端情况)。据统计分析,大部分用户 80% 的数据都是冷数据,按 2/8 原则进行成本估算,配合低频 NAS 后,原性能型 NAS 的有效存储成本可降低至 ¥ 0.49 /月 GB,原容量型 NAS 的有效存储成本可降低至 ¥ 0.19 元/GB/月。
2.2 低频 NAS 的架构解析
图 低频 NAS 架构解析
低频 NAS 的架构解析如上图所示,低频 NAS 的架构利用生命周期管理实现数据智能分层。
低频 NAS 的使用方式非常简单,它和性能型 NAS 或容量型 NAS 保持统一的命名空间和一致的访问接口,用户无需修改应用程序,只需要启用生命周期管理,选择低频数据迁移的策略,后台任务会自动根据用户定义的策略将匹配的冷数据迁移到低频 NAS。用户无需关心数据迁移任务以及数据实际存储的位置,仍然看到一致的命名空间。当用户需要对低频 NAS 的数据进行读写时,数据会自动透明的被加载回标准 NAS 进行缓存,同时也支持用户手工对指定的低频 NAS 数据进行取回。支持 ACL、Quota 等企业特性,和通用型 NAS 功能规格一致。当前生命周期管理策略支持对14 天/ 30 天/ 60 天/90 天不访问的数据进行数据迁移。
低频 NAS 的核心价值支持 NFS,SMB 协议文件系统,实现对 Linux 和 Windows 平台的全面覆盖。支持通过控制台和 OpenAPI 将低频介质上的文件取回至热介质,收取一次性数据读取费用。支持通过控制台和 OpenAPI 浏览低频介质上的文件列表,掌握数据分布情况。
低频 NAS 的读写访问首次读写会从低频 NAS 加载数据到缓存,将产生几十毫秒的访问时延,后续访问会直接从缓存中读写。低频 NAS 的性能吞吐热数据与通用型 NAS(性能型和容量型)一致。小于 64KB 的文件不会迁移到低频 NAS。
2.3 低频 NAS 的能力对比
为了降低成本,传统的方式是将文件存储的冷数据通过迁移工具迁移至对象存储。采用低频 NAS 解决方案,在降低成本的同时,相对传统的方式的使用方式,极大降低了运维成本。低频的能力对比如下图所示。
图 低频 NAS 能力对比
用户示例:北京某在线教育行业客户使用低频后大幅降低运维成本和复杂度
该公司给学生上完课后的视频数据,都需要保存下来供学生在需要的时候重播。因此,他们的数据基本上就是一次性的写,同时,大量的客户以后都不会去重新播放。总的来看,他们的热数据只有不到 1%,而 99% 的数据都可以存放到低频,从而节省大量的成本。在没有低频的时候,这个客户通过集成数据迁移工具采用自行管理数据的生命周期,超过 15 天的数据就迁移到 OSS。但是,当他们的用户需要访问以后的数据时,他们又需要自行从 OSS 取回数据。这个中间涉及的数据的迁移,删除,取回等管理给他们造成了很大的工作量。他们急切希望能够使用低频,减少他们的运维开发。
3 低频 NAS 的应用场景
3.1 低频 NAS 的应用场景
低频 NAS 的主要应用场景是 AI/HPC/深度学习/机器学习的海量数据集存储应用场景,Web 服务和内容管理冷数据共享存储应用场景,多媒体音视频的线上媒体库应用场景,以及容灾备份的冷备数据应用场景。如下图所示,
图 低频 NAS 应用场景
- WEB服务和内容管理的冷数据共享存储:WordPress、IIS 等 Web 内容管理系统主要用来承载各类数据上传下载数据业务,后端通常使用共享文件系统作为数据存储。随着业务增长,大量数据变成了冷数据。低频 NAS 帮助用户轻松管理冷数据和降低存储 TCO 成本。
- AI/HPC/深度学习/机器学习的海量数据集存储:基因测序,GIS 地理信息数据,票据影像数据,音频录音文件等海量非结构化数据存储,低频 NAS 不仅可以提供低成本大容量的存储空间,还可以为热数据提供和通用型 NAS 一致的吞吐能力。
- 多媒体音视频的线上媒体库:媒体转码、处理和流媒体等媒体工作流,使用 NAS 实现高性能在线编辑、转码视频作业。同时海量多媒体存储采用低频 NAS 实现生命周期管理和智能数据分层,提供最高性价比。
- 容灾备份的冷备数据:使用 NAS 作为 MySQL、Redis、MongoDB 等数据库的备份介质,或者利用 Windows VSS 能力配合 NAS 作为 Windows 服务器的备份介质,低频 NAS 适于将备份的冷数据进行分级存储,降低存储 TCO 成本。
低频 NAS 保持文件访问方式不变,前端应用无感知,帮助用户轻松管理冷数据,实现生命周期管理和智能数据分层,降低存储 TCO 成本。
4 低频 NAS 的关键技术解析
4.1 低频的工作流程
图 低频 NAS的工作流程
如上图所示,文件系统中的冷数据转储、访问和取回的流程如下:
- ① 生命周期策略自动迁移,转储冷数据:用户根据文件系统中数据的使用情况创建生命周期管理策略。(更多信息,请参见设置生命周期管理策略。)文件系统根据生命周期管理策略定期检查指定目录是否包含冷数据,并将冷数据转储至低频介质(图示中 ①)。
- ② 访问冷数据:用户访问冷数据时,文件系统将数据从低频介质缓存至通用型 NAS 存储空间实现访问(图示中 ②)。第一次访问冷数据时,延迟时间会稍有增加,之后短时间内的访问性能与访问通用型 NAS 存储空间中的数据一致。访问低频介质中的冷数据会产生读写流量费用。(更多信息,请参见低频介质计费说明。)
- ③ 取回冷数据:当需要频繁访问低频介质中的数据时,建议用户创建数据取回任务,将指定文件或目录中的数据取回至通用型 NAS 存储空间(图示中 ③)。执行数据取回任务将读取目标数据,并产生读流量费用。(更多信息,请参见创建数据取回任务和低频介质计费说明。)
4.2 低频 NAS 的生命周期管理策略的全面解读
如果存储在通用型 NAS 文件系统中的数据超过一段时间未访问,可以使用生命周期管理功能将这部分冷数据转储至成本更低的低频介质中。低频 NAS 的生命周期管理策略详解如下:
4.2.1 选择配置策略的文件
选择配置策略的文件,文件转储到低频满足以下条件
- 文件所在目录配置了生命周期管理策略
- 文件需大于或等于 64 KB
- 一个策略最多支持配置 10 个目录
- 支持按文件系统过滤列表内容的功能
- 生命周期管理会依照文件的访问时间(即 atime)来进行判断。
- 以下操作会更新访问时间:
- 读取文件
- 写入文件
- 以下操作不会更新访问时间:
- 重命名一个文件
- 修改文件的用户(user)、用户组(group)、模式(mode)等文件属性
4.2.2 设置生命周期管理策略
设置生命周期管理策略,配置目录和管理规则如下:
- 预置生命周期管理规则,当指定目录符合预置天数未被访问
- 距最近访问14 / 30 / 60 / 90 天以上的文件将会转储至低频介质
- 每条策略显示管理文件系统、绑定目录路径、关联规则、创建时间等信息
- 支持“修改”和“删除”操作
- 借助 NAS分层策略分析工具配置目录
- 扫描指定目录/子目录
- 按照冷数据量降序排序
- 打印指定目录冷数据量最高的子目录
- 根据冷数据量设置策略和需配置目录
- 满足任一策略规则目录的文件即会转储至低频
4.2.3 执行生命周期管理策略
生命周期管理策略的执行可快速生效
- 最快约 2 小时后会自动转储至低频介质
- 目前仅支持 2020 年 6 月 1 日后创建的通用型NAS 开启并配置生命周期管理策略
- 已开启数据加密的文件系统暂不支持生命周期管理功能
低频 NAS 和通用型 NAS 保持基本一致的读/写延迟
- 读:第一次读低频介质中存储文件内容时延时会相对较高,但同一个文件内容在后续的短时间内的读延时会与性能型 NAS 或容量型 NAS 普通文件的读延时基本一致。
- 写:写低频存储文件的延时与写性能型 NAS 或容量型 NAS 文件基本一致。
4.2.4 配置低频策略后,经过扫描后,迁移数据至低频速度:
配置了低频策略,策略生效时间在一周以内,转储最大 100M/s,实际转化要看文件系统情况,比如目录数、文件数以及文件大小分布,以及当时集群忙闲程度。低频的数据迁移在后台完成的,优先级低一些。
4.3 低频的数据取回机制和查看机制
图 低频 NAS 数据取回机制和查看机制
4.3.1 低频 NAS 的数据取回机制
如果需要频繁访问低频介质中的文件,可以通过控制台或 OpenAPI 创建数据取回任务,将冷数据转为热数据,取回收取一次性数据读取费用。低频 NAS 的数据取回机制示意图,如下图所示。
图 低频 NAS 创建数据取回任务
4.3.2 低频 NAS 的查看机制
如果需要浏览低频介质上的文件列表,可以通过控制台或 OpenAPI 浏览文件,掌握数据分布情况。低频存储文件管理控制台截图,如下图示。
低频 NAS 的查看机制支持如下操作:
- 可视化存储文件管理提供文件系统列表下拉框
- 只显示低频存储文件或低频存储目录
- 不会显示标准存储文件
- 展示文件大小、存储类型、最近访问时间
- 提供勾选本层目录创建数据取回任务
- 提供勾选文件和子目录创建数据取回任务
图 低频存储文件管理
4.4 低频 NAS 的读写流量
按每小时低频介质读写数据流量的累积值计费。在每小时出账后读写量清零,下一小时重新累积。
文件系统中的数据符合生命周期管理规则后将自动转储至低频介质,不产生写流量费用。访问低频介质中的文件时,按照实际产生的读写流量计费。执行数据取回任务时,按照目标文件大小收取读流量费用。备份低频介质中的文件时,按照目标文件大小收取读流量费用。
举例:当用户读写低频里的文件时,读写不是按照整个文件的大小计算,而是按照实际读了多少流量,比如1个文件只读其中的 1% 部分,那么就只收取这 1% 的流量。
5 低频 NAS 的使用场景实例
5.1 低频 NAS 的使用场景示例1
低频 NAS 不适用于短期内频繁访问低频文件数据需求。低频文件存放超过 9 天,存放低频才能体现成本优化的优势;如低频文件存放低于 9 天发生数据迁移,则成本更高,不建议开通低频。
如果需要频繁访问低频介质中的文件,建议创建数据取回任务将冷数据转为热数据。具体操作,参见创建数据取回任务。
使用场景示例:
某客户 B 业务 1PB 数据开通低频后,存放 9 天,有频繁访问数据迁移需求,数据迁移后产生请求费用,无任何成本节约。
成本计算器:
- 低频 NAS 费用为 15 元/GB/月,低频 NAS 读取费用为 0.06 元/GB
- 1PB 文件数据转化到低频后,用户需求数据存放低频9天后迁移数据,数据迁移产生的低频读取费用 = 1024 * 1024 * 0.06 = 62914.56元。
- 1PB 数据开通低频后,存放 9 天累计节约的存储费用 = (1024 * 1024GB * (0.35-0.15 ) 元/GB/月) * 9/30 = 62914.56 元
5.2 低频 NAS的使用场景示例2
低频 NAS 适用于长期存放不经常访问的冷数据,开通生命周期管理以后, 每 PiB 每月节约存储成本 21 万元。
使用场景示例:
某客户 A 业务长期存放不经常访问的冷数据,开通生命周期管理以后, 每 PB 每月节约存储成本 21 万元,每天节约存储成本近 7000 元。用户无需修改应用程序,启动生命周期管理功能,用户选择 14 天不访问的数据进行数据迁移,根据用户定义的策略将匹配的冷数据自动迁移到低频 NAS。用户无需关心数据迁移任务以及数据实际存储的位置,仍然看到一致的命名空间。当用户需要对低频 NAS 的数据进行读写时,数据会自动透明的被加载回标准的通用型 NAS 进行缓存,同时也支持用户对指定的低频 NAS 数据进行取回。不经常访问的冷数据,长期存放低频介质,无请求费用可忽略不计。
成本计算器:
- 低频 NAS 费用为15 元/GB/月,低频 NAS 读取费用为 0.06 元/GB
- 1 PB 每月节省存储费用 = 1PB * (0.35 元/GB/月 - 0.15 元/GB/月) = 1024 * 1024 GB * (0.35 元/GB/月 - 0.15 元/GB/月) = 1024 * 1024 * 0.2 = 209715.2 元;1 PB 每天节省存储费用 = 209715.2/30 = 6990.5 元
- 不经常访问的冷数据,无请求需求,1PB 每月读取费用可忽略不计
5.3 低频 NAS的使用场景示例3
数据是最有价值的资源,低频 NAS 实现智能数据分层,用户可以长期保存海量非结构化数据资源,实现数据价值和最高性价比。
使用场景示例:
某客户 C 多媒体视频处理业务存放海量的非结构化数据,使用容量型 NAS 实现高性能在线编辑、转码视频作业。其中热数据和冷数据的比例为 2:8,随着业务的快速增长,每 9 个月数据量翻倍,可是 IT 预算没有增加。数据是用户最有价值的资产,用户希望将有价值的数据长期保持起来,但是容量型 NAS ( 0.35 元/GB/月 )每 PB 每月存储费用 36.7 万元,成本压力激增。用户不得不删除 80% 不经常访问的冷数据,只保留 20% 热数据,以优化成本。用户将容量型 NAS 开通生命周期管理功能后,海量多媒体存储采用低频 NAS 实现智能数据分层,将这些有价值的数据长期保存,实现数据价值和最高性价比。开通低频( 0.15 元/GB/月 )后,80% 冷数据自动转储到低频 NAS,每 PB 每月节约存储费用 16.7 万元。
成本计算器:
- 容量型 NAS 费用为35 元/GB/月,低频 NAS 费用为 0.15 元/GB/月,低频 NAS 读取费用为 0.06 元/GB
- 1 PB 使用容量型 NAS 每月存储费用 = 1PB * 0.35 元/GB/月 = 1024 * 1024 GB * 0.35 元/GB/月 = 367001.6 元
- 1 PB 开通低频后,每月存储费用 = 1PB * 20% * 0.35 元/GB/月 + 1PB * 80% * 0.15 元/GB/月 = 199229.44 元
- 1 PB 开通低频后,每月节省存储费用 = 367001.6 元 –44 元 = 167772.16 元
- 不经常访问的冷数据,无请求需求,1PB 每月读取费用可忽略不计
5.4 低频 NAS 的使用场景示例4
某客户 C 业务利用低频 NAS 每 PiB 每月可节省近 21 万元存储费用,数据访问方式不变,几乎不影响数据访问性能。
使用场景示例:
某客户 C 业务大量写入 101.3GiB 大小的文件,每天总计写入约 100TiB,持续写入 1 个月(共计约 3PiB),同时这些数据的部分片段需要被频繁扫描验证。开通生命周期管理以后,NAS 依据客户设定的策略,定期将数据迁移至低频介质(0.15元/GiB/月,每 PiB 每月可节省近 21 万元存储费用)。数据的访问方式保持不变,数据扫描时每天每个 100G 左右的文件仅读取 10- 15MiB 左右文件片段。 (读取费用为 0.06元/GiB,每天读取费用仅需要 每 PiB 数据每月读取费用约 273 元)。为保持最高性价比,该客户选择距最近访问 2 天以上的数据自动迁移至低频介质。
成本计算器:
- 低频 NAS 费用为 0.15 元/GiB/月,低频 NAS 读取费用为 0.06 元/GiB
- 1 PiB 每月节省存储费用= 1PiB * (0.35 元/GiB/月 - 0.15 元/GiB/月)=1024*1024 GiB *(0.35 元/GiB/月 - 0.15 元/GiB/月) = 1024*1024*0.2 = 209715.2 元
- 1PiB 每月读取费用= (1PiB/101.3GiB) * 15MiB/天 * 0.06 元/GiB * 30 天=(1024*1024 GiB/101.3 GiB)* (15/1024) GiB/天 * 0.06 元/GiB * 30 天 = 272.9 元
更多信息
阿里云文件存储 NAShttps://www.aliyun.com/product/nas
钉钉扫码或搜索群23110762加入客户群了解更多文件存储解决方案