节省60%费用!巧用阿里云归档存储降低基因测序成本

本文涉及的产品
对象存储 OSS,标准 - 本地冗余存储 20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储OSS,敏感数据保护2.0 200GB 1年
简介:

“如果有款存储产品能在保证业务正常运行的时候节省60%的成本,我会毫不犹豫选择它”。

我的工作是做生物基因测序的,我们公司很早就在云上搭建了数据分析平台(云的优势不多说了,省心省钱),数据通过采集设备生成后,会立即上传到云端进行预订的测序分析。当然了,考虑到算法更新,这些数据都是保存在云端的,有了新的分析方法就可以进行更多维度的分析,无需重新采集。

存储周期长是基因数据的特点,在采集后的最初几个月内会被频繁访问,对于数据实时的响应性要求极高。但经过开始的几个月后,原始数据访问频率就开始大幅下降,所以我们尽量会寻找不同访问特性的存储,去降低总存储成本。

之前我们用的一直是阿里云的OSS标准存储,虽然速度快、延迟低、吞吐能力强,但对我们业务的不同时期来说有些“性能过剩”。所以当我们看到阿里云新上线的归档存储OSSArchive的价格的时候,说句实话,挺惊讶的:毕竟这款产品比OSS便宜得多。然后又想到阿里云看的挺远,不免有些服气。

归档存储有多便宜呢?相比标准存储低了近60%,适用于长期(几年甚至更长时间)存储的归档数据取回。按照存储容量300TB来计算,如果使用归档类型存储一年是221184元,即使与300TB年存储包相比,也可节省11万元以上。

image


对基因行业,这是个非常大的惊喜,因为每个基因文件的大小在几GB到几十GB不等,随着基因测序的需求增加,存储规模增长非常快,其在总成本中占有的比例也在不断增大。

另一个吸引我的地方是归档存储采用的是OSS标准API,跟我们现有的数据管理与分析平台完全配套,无需进行平台改造。

归档存储的上手非常简单,我们经过了几天的方案验证后,很快完成了全新的业务架构搭建。

下面是一个归档类型Bucket创建、文件上传、查询、解冻与下载的简单流程:

1、创建归档类型的Bucket

首先通过控制台创建一个归档类型Bucket,当前阿里云OSS开放的是华北2(北京)区域,开通归档类型Bucket流程和其他存储类型Bucket是相同的。

image

2、上传数据

OSS提供的ossutil工具可以自动根据文件大小适配上传模式,包括PUT 上传、分片上传。基因文件普遍都是GB级以上,需要通过分片机制,将大文件能够拆分成多个片段独立上传。

image

3、查询文件列表

OSS API和相关工具可以实时查询文件列表。

image

4、文件解冻

归档存储与标准类型在读取Object前,需要有一个Restore操作,按照OSSArchive文档中介绍,上传到归档类型的Object处于冷冻状态,需要先解冻后进入到可读取状态,Restore操作后需要等待1~4个小时的等待时间。

image


在Restore解冻过程中的Object会显示ongoing-request="true"。

解冻完成后,查询Object状态会显示解冻完成可以直接下载,expiry-date为过期时间,过期时间一到,Object会重新进入冷冻状态。

image


解冻操作是需要收取费用的,每解冻 1GB数据需要0.06元,所以不需要立即使用的Object还是让它安安静静的保存吧。解冻完成24小时后Object会重新回到冷冻状态,参考官网文档处于解冻状态下,可以通过多次调用Restore,使Object最长保持七天可读状态。

5、文件下载、读取分析


image


已经解冻的Object可以和标准类型的Object一样的下载方式 。

对于基因数据的管理,我们对每个基因文件的元信息使用了数据库保存,每个基因文件都会记录上传时期和近半年内使用信息,对于上传时间超过一定时期并且长期没有访问的基因文件,会从标准类型的Bucket中迁移到归档类型Bucket。

归档存储类型总体使用下来的体验不错,也给OSS产品提个建议吧,希望后期能支持加入Restore解冻完成的事件通知,现在应用程序实现中都是每隔一小时去获取下Restore的状态。

目录
相关文章
|
存储 监控 数据可视化
日志服务 SLS 全新推出归档存储类型,相比热存储成本降低 86%
日志服务 SLS 全新推出归档存储类型,在现有热存储、低频存储的基础上,为用户提供更低成本且可查询分析的长期数据存储方案。归档存储价格仅为 0.05 元/GB/月,相比价格最高的热存储最高降幅可达 86%。
775 0
|
存储 API 对象存储
阿里云OSS归档存储类型单价下调 45%
7月21日起,阿里云对象存储OSS归档存储类型存储单价下调45%,归档解冻(Restore)时间优化到1分钟内
5611 0
|
PyTorch C++ 异构计算
一款通过字幕来剪切视频的神器 AutoCut
只需要编辑文本文件即可完成剪切。
|
监控 安全 物联网
智能家居系统的安全与隐私保护技术
随着物联网技术的飞速发展,智能家居系统逐渐进入千家万户。然而,随之而来的安全与隐私问题亦日益凸显。本文将探讨智能家居系统中存在的安全风险,分析当前采用的主要安全技术措施,并指出用户在享受智能生活时需注意的隐私保护策略。通过深入浅出的方式,旨在增强大众对智能家居安全的认识,并提供实用的保护建议。
|
存储 分布式计算 调度
云计算:原理、应用与编程实践
云计算:原理、应用与编程实践
1184 0
|
SQL 前端开发 JavaScript
前端三剑客之JavaScript基础入门
前端三剑客之JavaScript基础入门
194 1
|
机器学习/深度学习 数据采集 人工智能
构建高效AI模型:深度学习优化策略和实践
【5月更文挑战第26天】 在人工智能的浪潮中,深度学习作为一项核心技术,其模型构建与优化一直是研究的热点。本文旨在探讨如何通过一系列创新性的优化策略提升深度学习模型的性能及效率。我们将从理论与实践两个维度出发,详细阐述包括数据预处理、网络结构设计、损失函数选择、正则化技巧以及超参数调整等方面的优化措施。通过这些策略的综合运用,可以显著提高模型的准确性,降低过拟合风险,并缩短训练时间,为AI领域的研究者和工程师提供有价值的参考。
|
缓存 安全 算法
ARM阅读系列(一):架构和处理器
ARM阅读系列(一):架构和处理器
501 45
|
机器学习/深度学习 数据采集 算法
【Python机器学习专栏】使用机器学习预测股票价格
【4月更文挑战第30天】本文探讨了使用Python和机器学习预测股票价格的方法,包括数据收集(如开盘价、收盘价等)、预处理(缺失值填充、异常值处理、标准化)、特征选择(技术指标、基本面指标、市场情绪)和工程、模型选择(线性回归、SVM、神经网络等)、训练与调优。模型评估涉及准确率、召回率等指标,并强调实际应用中需考虑多种因素,未来研究可探索深度学习的应用及数据质量与安全。
1823 0
|
人工智能 自然语言处理
Kimi Chat是什么模型?一文让你顿悟
Kimi Chat是什么模型?一文让你顿悟
741 0