开发者学堂课程【容器持久化储存训练营:容器网络文件系统 CNFS 在容器计算领域的最佳实践】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/889/detail/14193
容器网络文件系统 CNFS 在容器计算领域的最佳实践
内容介绍:
一、容器存储最佳实践
二、使用阿里云容器服务 ACK+文件存储 NAS 构建现代化企业应用
一、容器存储最佳实践
1. 金融和多媒体服务最佳实践
常用产品组合:容器服务 ACK / ASK+ECS /弹性裸金属服务器/ ECI / GPU+通用型 NAS
⑴ 场景描述
①大型金融服务或在线视频等突发应用,需短时间内弹性扩容大量容器,对资源弹性伸缩能力的要求非常高,文件存储需具备极致弹性和极速伸缩能力的应用场景。
②典型的应用:媒体和娱乐、Web 服务和内容管理、大型金触服务
⑵ 用户痛点
①底层存储的性能和容量无法线性扩展,存储扩展能力无法适配容器的弹性伸缩
②Pod 需要灵活的挂载卸载存储,存储不能匹配容器快速启动的速度,I/O 性能瓶颈
③海量容器持久化数据快速增长,成本压力大
⑶ 解决方案
①NAS 自动化极速伸缩,在短时间内启动数干个容器,毫秒级挂载NAS
②NAS 为海量容器提供共享读写能力,实现容器应用高可用
③NAS 目录配额和 ACL 管理能力,为金融业务数据安全保驾护航
④NAS 提供生命周期管理,自动冷热分层,访问方式不变,分层至低频型 NAS
⑷ 价值收益
①敏捷,极致的弹性,对存储来说,容量和性能扩展完全按需
②单个文件系统支持数万 Pod 共享,毫秒挂载和卸载,极速迁移,同时保障数据安全
③自动化生命周期管理,优化成本
2. AI 机器学习最佳实践
常用产品组合:ACK / GPU /弹性裸金属服务器+通用型 NAS
⑴ 场景描述
①AI 训练和 AI 推理需要较高的带宽,同时海量数据需要较低的存储成本
②典型的应用:自动驾驶、自然语言学习、图像识别训练
⑵ 用户痛点
①AI 数据流复杂,存储系统 IO 存在瓶颈
②AI 训练、推理需求高性能
③面对快速增长的数据,如何做好高效、低成本数据生命周期管理
⑶ 解决方案
①文件存储的 POSIX 接口原生支持各种 AI 机器学习应用,无需改造适配直接使用,享受容器优势
②文件存储 NAS 作为高性能共享存储,与 AI 场景完美结合,支持海量小文件访问,加速 AI 训练、推理性能
⑷ 价值收益
①超高性能存储提高了计算资源的利用率
②超强性能和容量扩展能力,减少运维管理成本
③生命周期管理,与云上无缝对接,数据冷热分层,降低成本
3. 基因计算最佳实践
常用产品组合:ACK / ASK / AGS+ 通用型 NAS+OSS
⑴ 场景描述
①二代、三代基因数据分析优化,提供云上数据分析和高速数据上传、交付方案
⑵ 用户痛点
①大规模样本的数据挖掘需要海量计算资源,数据增长快,存储费用高,管理困难
②海量数据需要快速、安全的分发到国内多地,多数据中心需要共享访问
③批量样本处理时间长,性能需求高,资源需求峰谷明显,难以规划
⑶ 解决方案
①文件存储 NAS 对接容器服务 ACK、Serverless 容器服务 ASK 和基因计算 AGS,搭建极速、低成本、高精度的基因计算容器环境,满足基因测序计算和数据共享需求。
②文件存储 NAS 用于基因数据分析中的共享存储,保存下机数据和组装后的数据,以及过程中的中间数据,满足基因行业用户的低时延、高 IOPS 的存储需求,减少数据拷贝/传输。
③对象存储 OSS 保存测序仪下机数据和组装后数据以及分析结果数据,用于数据的分发、归档、交付,保证10000+用户同时上传、下载数据,提高数据交付效率。
⑷价值收益
①敏捷,按需使用,弹性扩展
②高性能存储提高基因计算的高性能和效率
③数据冷热分层,降低成本
二、 拥抱容器存储,使用阿里云容器服务 ACK+ 文件存储 NAS 构建现代化企业应用
1.百家云-多媒体录制转码,弹性扩容10倍资源
⑴公司介绍——百家云(一站式视频技术服务商)
特点:教育直播,双师课堂,网校系统
百家云是一家拥有音视频核心技术和知识产权的高新技术企业,已获得百度、贵阳创投、邦盛资本、华图教育、白山云、高榕资本、启赋资本等超过1亿元的投资。汇聚了来自 Google、微软、百度、Real player、搜狐、全时等厂商的顶尖语音视频人才。
⑵业务需求和痛点
①疫情期间业务暴涨:三天时间系统资源需要扩容10倍
②存储 I/O 瓶颈:录制转码系统在原有存储系统遇到 I/O 瓶颈
⑶解决方案
⑷客户价值
阿里云文件存储 NAS 完全兼容现有录制转码软件,并提供 GB/s 级的吞吐能力和快速扩容,帮助业务实现快速容器化改造,保障疫情期间直播录制业务顺利上线。节省了25%的成本,降低80%的运维工作量。
2. 图森未来-全球领先自动驾驶 AI,训练性能提升60%
⑴ 公司介绍——图森未来
图森未来(TuSimple)成立于2015年,是一家专注于 L4级无人驾驶卡车技术研发与应用的人工智能企业,已经实现卡车在干线物流场景和半封闭枢纽场景下的无人干预驾驶。图森未来品牌旗下产品——图森未来 L4级别无人驾驶卡车能够实现环境感知、定位导航、决策控制等自动驾驶核心功能,可应用于高速公路货运和港内集装箱码头运输及其相似场景。
⑵ 业务需求和痛点
①数据采集:业务全球化,每天产生几十 TB 数据,数据同步和传输效率低
②海量小文件:训练素材可能是100KB的海量小图片
③高性能:GPU 利用率不高,且传统 NAS 无法满足 GPU 低延迟文件访问需求
④扩展性:业务高速发展,运维复杂,需要弹性付费
⑶ 解决方案
⑷ 客户价值
针对图森未来的场景,在底层针对数据采集、存储、计算、时延和带宽等做
了深度优化,将训练性能提升了将近60%,大大缩短了图森未来的模型优
化时间,加速模型迭代,提升业务创新效率。
3. 某癌症医疗公司高性能基因计算,高效数据交付
(1)公司介绍
中国领先的癌症精准医疗公司专注于癌症基因组学研究和应用,并致力依托先进的分子生物学及大数据分析能力改变癌症诊疗方式。聚焦癌症精准医疗,产品和服务覆盖癌症全周期。目前已服务中国500余家医院、数十家药企和科研机构,建立了庞大的基因组数据库。为癌症患者、高危人群和健康人群,以及癌症相关领域研究者,提供科学专业的分子诊疗及科研服务解决方案。
(2)业务需求和痛点
数据存储:数据增长快,当前存储无法满足容量和性能线性扩展需求,上万个容器弹性扩容,底层存储难以适配容器应用的弹性伸缩
(3)批量样板处理时间长,基因计算性能遇到 I/O 瓶颈
(4)大规模样本数据存储费用高,管理困难
(5)解决方案
(6)客户价值
阿里云基因存储解决方案帮助用户实现了优化的数据成本、高性能的计算分析、高效的数据交付。
存储性能由1GB/s提升至10GB/s,实现 Panel / WES 数据12小时端到端处理完成,包括数据上云,结果下云分发。
文件存储 NAS 在这个过程中,实现了对于弹性扩展和高存储的带宽,可以根据每次业务规格的不同提供匹配的带宽,既满足了业务弹性的需求,也节省了总体的应用成本,所以文件储存 NAS 可以通过统一的流程,统一的资源调度云上云下的资源,从而可以非常低成本的且高效的去完成金融计算的任务。