作者 | 孟威
来源 | 凌云时刻(微信号:linuxpk)
前言
“云原生技术有利于各组织在公有云、私有云和混合云等新型动态环境中,构建和运行可弹性扩展的应用。云原生的代表技术包括容器、服务网格、微服务、不可变基础设施和声明式 API。这些技术能够构建容错性好、易于管理和便于观察的松耦合系统。结合可靠的自动化手段,云原生技术使工程师能够轻松地对系统作出频繁和可预测的重大变更。”来自CNCF。
K8S对网络,存储,计算进行了编排,已经成为了云原生的操作系统,给用户展现了一个新的界面,极大的简化了用户的运维,提升了资源的弹性,真正的做到了按需使用,降低了用户的成本。云原生快速被企业和开发者接受。Forrester 预测到2022年, 全球组织/公司在生成环境运行容器化应用,从今天不足30%的比例将大幅度提升到超过75%,企业应用容器化的趋势势不可挡。
容器在生产环境的应用的比例快速上涨,从2016年首次调查的23%,到2018年上涨到73%,实际到2020年已经上涨到84%。
云原生应用正在引领各个应用领域实现云原生化,同时也在深刻改变着应用服务的方方面面。存储作为应用运行的基石,也在服务云原生化过程中提出了更多的需求。云原生存储为了满足云原生特性的要求,可用性、稳定性、扩展性、性能等核心能力都有大幅的优化。
作为国内最大的云产商,阿里云提供了丰富的云原生服务。和网络,计算的编排不同的是,存储需要考虑如何无缝的接入到K8S中进行编排和调度。K8S推出了CSI,通过统一的标准将存储和K8S进行了无缝的对接。本文讨论云原生容器对存储的挑战,面向云原生和容器等领域的发展,阿里云文件存储不断进行云原生适配和演进,完美应对云原生存储挑战,阿里云NAS是容器存储的自然选择。
云原生带来的存储挑战
新的企业负载/智能工作负载容器化、迁云、存储方面遇到的性能、弹性、高可用、安全及生命周期等方面的问题,不但需要存储产品层次的改进,还需要在云原生的控制/数据平面的改进,推进云原生存储和云存储的演进。
1.存储性能挑战:云原生应用在大数据分析、AI 等场景得到广泛应用,这些场景对存储吞吐和IOPS的需求也非常高。通过容器集群,集中处理海量数据,同时启动数千Pod,弹出海量Pod对共享文件系统进行读写。重负载下导致时延增加,高延迟毛刺增多,读写稳定性不足,同时云原生应用的快速扩容、极致伸缩等特性也会考验存储服务在短时间内迎接峰值流量的能力。
- 集中式高吞吐对共享存储池冲击:高性能计算场景中,集中处理批量数据,同一个存储集群中带宽挤占,造成访问质量下降。
- 峰值吞吐不足:大规模数据处理,文件数目少,峰值吞吐高,请求密集,接近独占集群的极限带宽。
- 时延增加导致 GPU 等待:多机多卡 GPU 训练,读密集型。时延增加导致 IOwait 和 GPU 等待。
2.存储弹性挑战:云原生的极致弹性,给存储在弹性方面带来了新的挑战。随着云原生多元业务发展,数据库如MySQL等扩容,元数据管理应用如Zookeeper等在线扩容,本地盘存储容量无法弹性扩容。
3.存储高可用挑战:应用运维、系统运维时,存储随容器迁移的稳定性和可发现性挑战。
4.存储的安全挑战:面向的隔离性要求场景主要是多应用共享,文件系统多租户环境的容量配合,集群级文件系统共享访问的权限控制。用户应用的全链路数据加密要求。
5.存储的生命周期管理挑战:共享文件系统、缓存系统的声明方式创建和删除。
阿里云文件存储如何来应对这些挑战
针对以上在新的计算模式下,存储方面遇到的性能,弹性,高可用,安全,生命周期等方面的问题,不但是需要存储产品层次的改进,更需要在云原生的控制/数据平面的改进,在不久的将来实现稳定,安全,和效率并举的云原生存储。需要在云原生应用层、存储云产品层、底层存储适配和存储核心层都需要做相应的改进和提升才有可能提供更加稳定,安全和高效的面向应用的云原生存储。
随着云原生技术的发展,各个公有云厂商都开始对其云服务进行云原生化改造或适配,提供更加敏捷、高效的服务来适应云原生应用的需求。阿里云存储服务也在云原生应用适配做了很多优化,阿里云文件存储支持 CSI 、Flexvolume存储驱动无缝的衔接了云原生应用和存储服务之间的数据接口。实现了用户使用存储资源时对底层存储无感知,而专注于自己的业务开发。
文件存储NAS为云原生提供了一个完全弹性和共享的文件系统,按需使用,满足云原生极致的弹性。文件存储从性能,弹性,安全,生命周期管理等方面对云原生存储进行了打造和演进。
- 在AI,大数据分析,高性能计算领域,阿里云文件系统分散工作负载多文件系统和多个存储集群、多个可用区通过容器编排分散IO到多文件系统。支持客户端本地只读缓存技术、分布式存储,降低网络延迟和IO、GPU等待时间。可以支持刚性交付数十GB吞吐的能力,提升算力。
- 弹性方面,NAS支持自由扩缩容,按量付费,是完全托管的文件系统。极速型NAS提供了百us的延时,在金融,互联网等典型的突发弹性场景中,能够在几分钟内启动数千个容器,并完成数据的极速加载、卸载。
- 高可用方面,NAS支持容器快速Failover,同时支持存储快照、备份等企业级特性。
- 在安全方面,支持全面的AD/ACL权限管理,支持配额,打造了统一命名空间,支持对海量pod间的IO进行隔离和统一管理;文件存储产品支持传输加密、落盘加密等功能。
- 面对海量数据,提供了数据生命周期管理,自动归档冷数据,可以降低90%的用户成本。
为什么选择阿里云文件存储作为容器存储?
阿里云文件存储NAS为非结构化数据提供存储服务。随着云原生的快速发展,许多公司的容器化应用程序使用NAS存储数据,有些甚至存储PB级数据。阿里云在云原生布局上提供容器K8s服务(ACK)和弹性容器实例(ECI),容器实例使用NAS文件系统作为持久化存储。容器存储离不开共享文件存储。
阿里云文件存储是云原生、高可用、成本优化的完全托管的文件系统。阿里云文件存储有三款产品,通用型NAS,极速型NAS和并行文件系统CPFS。
阿里云NAS是容器存储的自然选择,因为它是一种完全托管的服务,配置简单,添加或删除数据时自动扩展,和容器基础架构一样灵活便捷。
通常,彼此共享数据的容器自然需要共享文件存储,长期运行的容器也可使用共享文件存储应对故障。阿里云文件存储同时满足容器应用场景对持久化存储弹性伸缩、灵活挂载、高性能的需求。此外,容器镜像的配置文件或初始加载数据存储可以在 NAS 文件存储上实现共享,在容器批量加载时实时读取,多 POD 间通过 NAS 共享持久化数据,在 POD 故障时可以进行故障切换。
随着新技术的发展,机器学习AI和基因处理等大量使用共享文件存储。我们通常看到如下一些示例:
- Web服务:WordPress之类的内容管理应用程序受益于扩展到多个实例以实现性能和冗余,并且需要在多个实例之间共享上载、插件和模板。
- 软件开发工具:JIRA和Git之类的开发人员工具需要在实例之间共享数据以实现高可用性,而代码则保留在多个阿里云可用区中以实现持久性。
- 大数据分析和处理:诸如基因数据处理、Tensorflow机器学习框架需要通过文件系统接口访问数据,并且具有持久的共享存储,可以使多个用户和作业在同一组数据上并行运行。
- 企业应用程序:共享Notebook(如Jupyter Jupyterhub)需要为notebook和user workplace提供持久存储,拥有共享存储可以使数据科学家轻松协作。
总结
以容器和云原生计算被企业快速接纳,Kubernetes 逐渐成为云原生时代的基础设施,容器服务成为云原生时代基础设施。新的工作负载推进云原生存储和云存储的演进,云原生控制平面实现效率等方面的能力,从数据面提升存储稳定和减小安全隐患,云存储继续夯实性能,容量,弹性,密度等基础能力,共建云原生环境下的存储生态。
阿里云文件存储是容器存储的自然选择,完美应对云原生存储在性能,弹性,高可用,安全,生命周期等方面的数据挑战。阿里云基于云原生文件存储技术的快速演进将不断赋能云原生和容器领域的快速发展。