基因行业容器存储解决方案

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
简介: 基因行业容器存储解决方案

1、基因行业背景

1.1. 中国基因市场分析

基因组学是未来精准医疗的“基石”。70%的基因企业选择使用云计算来处理基因组相关业务。过去一年内,阿里云为基因医学影像数据提供了安全可靠的存储,500%数据增长,增长迅猛。强大无限制的计算能力,阿里云支撑了百万以上的基因样本数据分析工作。
1.png

2.  基因行业的存储痛点和需求分析

2.1. 基因组学数据管理相对复杂

一家大型基因测序功能公司每日会产生 10TB 到 100TB 的下机数据,大数据生信分析平台需要达到 PB 级别的数据处理能力,这背后需要生物科技和计算机科技的双向支撑。测序应用从科研逐步走向临床应用,计算模式从离线向在线演进,交付效率越来越重要。多变的数据处理流程,以及大量的生物信息软件版本的管理,大量排队的数据处理任务,由于生物信息软件的运行特性CPU平均利用率仍然不足,难以无人职守的处理失败任务,成本居高不下等等问题存在于以下的现有的系统中,催生了生物信息行业对云计算和云原生技术的拥抱姿态,在成本,弹性,效率,规模也提出了更高要求。

从基因业务角度理解,基因行业的数据处理的主要需求是提升效率,降低成本。基因场景的数据传输要求高速、稳定。如下图所示,是基因业务的数据处理流程图。
2.png

典型的基因行业数据传输与交付场景如下:
•        测序服务商海量数据上云,数据上云有多重途径,通过OSS工具、存储网关、闪电立方等。一般1PB数据离线迁移,最快1周上云。
•        科技服务公司:企业客户数据交付。数据交付,通知杭州到上海,同账号的跨地域复制的数据交付,在线迁移服务,完成跨地域、跨账号交付。杭州传到全球访问,全球访问加速。杭州传到企业用户,基于阿里云ram子账号,企业客户自己账号系统的交付体系。
•        样本数据保存进行高吞吐分析计算,对存储要求高吞吐、高IOPS,对计算资源要求弹性、横向扩展。
•        科研院所分析结果实现全球数据分发快速,一般每天交付19TB数据,全球14个数据中心保障快速就近交付。
•        分析结果长期保存归档,要求高性价比、高可靠性。

2.2. 典型的基因行业的数据存储痛点
1、数据存储:数据增长快,存储费用高,管理困难;长期保存数据可靠性难以保障;需要寻求低成本大数据量的数据压缩方式;元数据管理混乱,数据清理困难。

2、分发共享:海量数据需要快速、安全的分发到国内多地及海外;传统硬盘寄送方式周期长,可靠性低;多地中心数据需要共享访问。
3、计算分析:批量样本处理时间长,资源需求峰谷明显,难以规划;大规模样本的数据挖掘需要海量计算资源,本地集群难以满足;计算工作流流程迁移困难、线上线下调度困难、跨地域管理困难;线下弹性能力差,按需计算需求。

3、阿里云基因容器存储解决方案

阿里云上的基因行业的容器存储解决方案架构如下:
3.png
 
阿里云基因文件存储解决方案说明:
•        基于AGS/ACK工作流搭建极速、低成本、高精度的基因测序的容器计算环境,根据业务需求,按需弹性提供计算资源,解决业务高峰期排队问题的同时,提高资源利用率。
•        文件存储可以对接容器基因计算环境,满足基因测序的计算和数据共享需求:
•       NAS为基因行业用户提供低时延、高 IOPS 的文件存储,用于基因数据分析中的共享存储,保存下机数据和组装后的数据,以及过程中的中间数据。
•        NAS计算结果数据会同步到 OSS 存储,文件存储集成OSS 提供海量存储空间,同时通过冷数据归档存储,降低存储成本。保存测序仪下机数据和组装后数据以及分析结果数据,用于数据的分发、归档、交付。保证10000+用户同时上传、下载数据,提高数据交付效率。

阿里云整体解决方案在基因行业的优势:
•       生态闭环:70%的基因行业客户都在阿里云上,包括100%的测序工厂头部客户跟阿里云有高速专线,基因数据在阿里云上各个基因客户之间高速流动;
•       产品成熟:K8S、ACK、AGS、OSS、NAS等产品都已经商业化多年,在基因行业客户得到广泛使用。对比友商,我们的产品稳定,功能丰富,性价比高;
•       行业老兵:服务基因行业多年,深入理解客户的业务场景和痛点,针对性的解决了数据上云、数据分析、数据交付的问题,给客户提供端到端的解决方案;
•       全球化:借助阿里云全球基础设施以及跨境高速通道,帮助客户拓展海外业务。

阿里云文件存储解决方案在基因行业的优势:
•       扩展能力强:集群最大规模支持近万个节点,容量可达数十PB规模;便于基因海量数据的性能升级和容量扩展。
•       性能能力强:协助客户使用高性能文件存储;有力支撑基因业务增长带来的大容量和高性能需求;大大提高海量数据快速分发和基因计算分析效率。
•       更经济:通过阿里云文件存储服务构建基因测序高性能工作负载;没有一次性成本投入或冗长的采购周期,享受按需付费、更经济的基础设施资源。
•       灵活敏捷:阿里云高性能文件存储服务,与ACK等计算集群整合,支持集群直接挂载文件系统;多种产品选型:通用型NAS、CPFS公共云及CPFS一体机,满足不同基因用户性能、成本、多云部署需求;灵活售卖方式,资源弹性伸缩,按需购买;支持云下和云上整体解决架构,既提供线下固定资产输出方案,满足对数据存储管理和基因业务高性能的双重要求,也提供快速数据上云的方案。
•       数据生命周期管理:支持数据智能流转至低频节约成本;支持集成OSS,实现数据计算、分发、归档、交付的智能数据流转;智能数据冷热分层,同时满足基因快速高效计算和海量基因数据成本优化需求。

阿里云文件存储解决方案用户收益:
•       敏捷,按需使用,弹性扩展
•       超高性能存储提高基因计算的高性能和效率
•       数据冷热分层,降低成本

4、基因行业容器文件存储介绍

阿里云文件存储NAS为非结构化数据提供存储服务。随着云原生的快速发展,许多公司的容器化应用程序使用NAS存储数据,有些甚至存储PB级数据。阿里云在云原生布局上提供容器K8s服务(ACK)、弹性容器实例(ECI)、容器服务ACK/ASK,容器实例使用NAS文件系统作为持久化存储。容器存储离不开共享文件存储。通常,彼此共享数据的容器自然需要共享文件存储,长期运行的容器也可使用共享文件存储应对故障。阿里云文件存储同时满足容器应用场景对持久化存储弹性伸缩、灵活挂载、高性能的需求。此外,容器镜像的配置文件或初始加载数据存储可以在 NAS 文件存储上实现共享,在容器批量加载时实时读取,多 POD 间通过 NAS 共享持久化数据,在 POD 故障时可以进行故障切换。阿里云NAS是容器存储的自然选择,因为它是一种完全托管的服务,配置简单,添加或删除数据时自动扩展,和容器基础架构一样灵活便捷。它还可以扩展到每秒数GB的吞吐量以及每秒数万的IOPS。它基于 POSIX 文件接口,提供 NFS / SMB 协议,天然适配原生操作系统,提供共享访问,同时保证数据一致性和锁互斥。文件存储中的数据在可用区内以多副本冗余方式存储,避免数据的单点故障风险。

文件存储目前包括三款产品,分别是通用型NAS、极速型NAS和CPFS并行文件存储,为企业应用、大数据处理、小文件存储、高性能计算等场景提供全方位解决方案。
了解更多阿里云文件存储

阿里云文件存储主要具备以下特性:
1)极致弹性,按需自动扩展
阿里云文件存储支持自由扩缩容,按需使用,适配容器的弹性能力,是完全托管的文件系统。在金融,互联网等典型的突发弹性场景中,能够在几分钟内启动数千个容器,并完成数据的极速加载、卸载。
2)共享持久化数据,容器应用高可用
文件存储具备多节点共享访问能力,文件存储还可以在不同可用区(不支持跨地域)、不同VPC之间共享。多Pod间通过NAS共享持久化数据,在POD故障时可以进行故障切换,实现容器应用高可用。
3)高性能加速,移除容器存储I/O瓶颈
文件存储基于分布式存储架构,具备性能水平扩展能力。提供不同类型、不同规格存储产品,充分满足各类应用的吞吐、延迟、IOPS和小文件等性能需求。文件存储CPFS 刚性交付100GBps吞吐,支持AI、HPC应用;文件存储NAS极速型 IOPS 20万,时延200us,小文件时延敏感应用最佳选择。高性能文件存储在容器批量加载时实时读取数据,支撑有状态应用、AI数据智能应用。
4)无缝对接容器存储插件,简化的云原生体验
文件存储基于POSIX/NFS/SMB文件接口,现有应用无需任何改造,可直接从本地磁盘平滑迁移至文件存储。针对容器编排,文件存储提供了CSI、Flexvolume存储插件,简化部署和使用,拥有完整的云原生体验。
5)企业级应用特性,Pod存储安全可靠
文件存储支持副本技术,同时通过备份、快照提供完整的数据保护和恢复机制。支持传输、落盘加密,确保数据不会被任何人窃取和篡改。支持海量pod存储隔离和统一管理。
6)数据生命周期管理,优化成本
文件存储提供按量付费模式,只需为正在使用的存储空间付费,不需要提前配置存储,并且不存在最低费用或设置费用。借助文件存储的共享能力可以节约大量的冗余数据拷贝和同步费用。数据生命周期管理,支持冷热分层,自动归档冷数据,降低成本90%。

了解更多阿里云文件存储

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
6月前
|
Kubernetes 物联网 数据中心
大规模 IoT 边缘容器集群管理的几种架构 -2-HashiCorp 解决方案 Nomad
大规模 IoT 边缘容器集群管理的几种架构 -2-HashiCorp 解决方案 Nomad
|
存储 边缘计算 数据管理
Docker 存储驱动解析:选择最适合你的存储方案,优化容器化部署性能和数据管理
Docker 存储驱动解析:选择最适合你的存储方案,优化容器化部署性能和数据管理
360 0
|
6月前
|
存储 Kubernetes Cloud Native
【阿里云云原生专栏】云原生容器存储:阿里云CSI与EBS的高效配合策略
【5月更文挑战第29天】阿里云提供云原生容器存储接口(CSI)和弹性块存储(EBS)解决方案,以应对云原生环境中的数据存储挑战。CSI作为Kubernetes的标准接口简化存储管理,而EBS则提供高性能、高可靠性的块存储服务。二者协同实现动态供应、弹性伸缩及数据备份恢复。示例代码展示了在Kubernetes中使用CSI和EBS创建存储卷的过程。
273 3
|
3月前
|
网络协议 Linux 网络安全
遇到Docker容器网络隔断?揭秘六种超级实用解决方案,轻松让Docker容器畅游互联网!
【8月更文挑战第18天】Docker容器内网络不通是开发者常遇问题,可能因网络配置错、Docker服务异常或防火墙阻碍等原因引起。本文提供六种解决策略:确认Docker服务运行状态、重启Docker服务、检查与自定义Docker网络设置、验证宿主机网络连接、临时禁用宿主机IPv6及检查防火墙规则。通过这些步骤,多数网络问题可得以解决,确保容器正常联网。
907 1
|
3月前
|
弹性计算 运维 Kubernetes
容器化管理云上应用解决方案评测
容器化管理云上应用解决方案评测
57 10
|
3月前
|
运维 Kubernetes 开发者
容器化管理云上应用解决方案评测
容器化管理云上应用解决方案评测
56 2
|
3月前
|
存储 运维 Kubernetes
容器化管理云上应用解决方案评测
在企业上云进程中,容器化应用托管已成为主流。阿里云容器服务Kubernetes版(ACK)凭借一键部署、自动扩展及高效管理容器化应用的能力脱颖而出。本体验分享了使用ACK快速部署应用的过程,从选择实例规格到查看服务运行状态,再到清理资源。技术细节覆盖容器化基础与Kubernetes核心组件,但高级配置如网络策略方面略显不足。文档资源丰富但部分高级功能指引不够详尽。代码示例实用,有助于快速启动部署。容器化托管的优势在于提升资源利用率、加速部署与迭代,是企业云转型的重要工具。总体而言,ACK提供了强大且便捷的容器服务体验,未来有望进一步完善以提供更佳服务。
91 0
|
4月前
|
存储 Kubernetes 负载均衡
容器化管理云上应用解决方案评测
整体而言,该方案为用户提供了清晰、详细且有用的部署指导。通过进一步增强初学者的引导和文档内容,可以更加提升用户的满意度和实施效率。
|
4月前
|
人工智能 运维 安全
阿里云容器服务ACK:高效管理云上应用的容器化解决方案
阿里云容器服务ACK(Alibaba Cloud Container Service for Kubernetes)为开发者提供了一套全面的容器化管理解决方案,旨在简化云上应用的部署、运维和管理。本文将深入探讨ACK的功能、优势及应用场景,为开发者展现容器化技术在云环境下的强大能力。
304 0
|
4月前
|
弹性计算 运维 负载均衡
解决方案评测|容器化管理云上应用
解决方案评测|容器化管理云上应用
113 3