云原生存储的思考 (二)云原生存储新的场景,挑战,解决方案和Roadmap

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
密钥管理服务KMS,1000个密钥,100个凭据,1个月
简介: ### Abstract 新的企业负载/智能工作负载容器化,迁云,存储方面遇到的性能,弹性,高可用,加密,隔离,可观测性,生命周期等方面的问题,不但是需要存储产品层次的改进,更需要在云原生的控制/数据平面的改进,推进云原生存储和云存储的演进。以下分别介绍一下问题场景,问题,探讨可行的解决方案,最终可以得出云原生存储,云存储目前可以做什么和未来还需要做什么。 ### 存储性能 ##

Abstract

新的企业负载/智能工作负载容器化,迁云,存储方面遇到的性能,弹性,高可用,加密,隔离,可观测性,生命周期等方面的问题,不但是需要存储产品层次的改进,更需要在云原生的控制/数据平面的改进,推进云原生存储和云存储的演进。以下分别介绍一下问题场景,问题,探讨可行的解决方案,最终可以得出云原生存储,云存储目前可以做什么和未来还需要做什么。

存储性能

长时延增加

场景:高性能计算场景中,集中处理批量数据,通过容器集群,同时启动数千Pod,弹出数百ECS对共享性文件系统读写
问题:重负载终负载下时延增加,高延迟毛刺增多,读写稳定性不足

image.png
解决方案:

  1. 分散负载到多文件系统,通过容器编排分散IO到多文件系统
  2. 存储产品的盘古2.0改造

集中式高吞吐写对共享存储池冲击

场景:高性能计算场景中,集中处理批量数据,10Gbps读写请求进入同一存储集群
问题:同一存储集群中的带宽挤占,造成访问质量下降
image.png

解决方案:

  1. 分散负载到多文件系统和多个存储集群/多个可用区,通过容器编排分散IO到多文件系统
  2. 使用独占高性能并行文件系统

峰值吞吐不足

场景:大规模生物数据处理, 文件数目少,峰值吞吐高10Gbps-30Gbps,请求密集1W/s
问题:接近独占集群的极限带宽

image.png

解决方案:

  1. 读写分流,分流读请求到OSS,写请求负载分流到独占文件系统和本地/远程块存储,通过容器编排分散IO到多文件系统
  2. 使用应用层分布式缓存降低网络读IO
  3. 存储产品的盘古2.0改造

时延增加导致GPU等待

场景:多机多卡GPU训练,直接读取OSS数据,读密集型
问题:时延增加导致IOwait, 和GPU等待
image.png

解决方案:

  1. 应用层透明POSIX读访问OSS
  2. 使用应用层分布式缓存降低网络读IO

存储弹性

场景:

  1. 数据库扩容, MySQL and etc
  2. 元数据管理应用在线扩容 Zookeeper/etcd
  3. 本地盘存储容量无法扩容

解决方案:

  1. 云盘在线扩容,应用控制面文件系统/逻辑卷离线,在线扩容能力
    单机云盘挂载密度
  2. 存储产品ESSD的替换使用

存储高可用

场景:

  1. 应用运维,系统运维
  2. 块存储随容器迁移的稳定性和可发现性

解决方案:

  1. 控制平面声明式存储快照,备份,定时快照备份,本地快照加速备份和恢复
  2. 控制平面云盘SerialNum的可发现性改造

存储的加密

场景:

  1. 用户应用的全链路数据加密需求
  2. 操作系统盘加密

解决方案:

  1. 产品存储的CMK,BYOK支持
  2. 控制平面的加密声明支持
  3. RAM权限的最小化控制

存储的隔离性

场景:

  1. 单盘多应用共享,单机日志盘块存储切分
  2. 单块本地盘/云盘吞吐能力不足
  3. 文件系统多租户环境的容量配额
  4. 集群级文件系统共享访问的权限控制

解决方案:

  1. 控制面LVM切分,控制面块存储blkio buffer IO应用级限速
  2. 控制面LVM多盘聚合和条带
  3. 存储产品共享文件系统的目录级Quota
  4. 控制面文件系统的目录级ACL

存储的可观测性

场景:

  1. 多租户Zookeeper/etcd,租户/应用级的IO指标监控和预警

解决方案:

  1. 控制面应用级IO Metrics采集能力
  2. 控制面设备级 IO Metrics采集能力
  3. 控制面挂载点级 IO Metrics采集能力

存储的生命周期

场景:

  1. 共享文件系统/缓存系统的声明式创建和删除

解决方案:

  1. Operator: 云盘/本地盘 (TiDB)
  2. Operator: 文件系统, CPFS
  3. Operator: 对象存储

云原生存储 v2

针对以上在新的计算模式下,存储方面遇到的性能,弹性,高可用,加密,隔离,可观测性,生命周期等方面的问题,不但是需要存储产品层次的改进,更需要在云原生的控制/数据平面的改进,在不久的将来实现稳定,安全,自治,和效率并举的云原生存储v2

  • 稳定:阿里云存储的全品类支持可观测性, Flexvolume and CSI plugins/IO metrics (CSI for 1.14)
  • 安全:全连路数据存储的可靠/可信存储支持,CSI 快照加密,系统盘加密。
  • 自治:云盘快照 /本地快照 ,离线在线的存储扩容能力, 元数据自动发现
  • 效率:I/O隔离 、可伸缩性/云盘再次分割提升密度/分布式存储缓存

image.png

总结

  1. 云原生存储是云存储UI
  2. 分层存储,不重新发明轮子
  3. 新的工作负载推进云原生存储和云存储的演进,云原生控制平面实现效率,自治方面能力,从数据面提升存储稳定和减小安全隐患,云存储继续夯实性能,容量,弹性,密度等基础能力,共建云原生环境下的存储生态。
相关实践学习
块存储快速入门
块存储是阿里云为云服务器ECS提供的块设备产品。通过体验挂载数据盘、分区格式化数据盘(Linux)、创建云盘快照、重新初始化数据盘、使用快照回滚云盘和卸载数据盘等功能,带您快速入门块存储。
相关文章
|
1月前
|
敏捷开发 Kubernetes Cloud Native
阿里云云原生技术为企业提供了一套高效、灵活的解决方案,支持跨云部署与管理
在多云环境中,阿里云云原生技术为企业提供了一套高效、灵活的解决方案,支持跨云部署与管理。通过容器化、服务网格等技术,实现了应用的一致性与可移植性,简化了多云环境下的资源管理和服务治理,帮助企业应对复杂的云环境挑战,加速数字化转型。
44 5
|
1月前
|
存储 Prometheus 运维
在云原生环境中,阿里云ARMS与Prometheus的集成提供了强大的应用实时监控解决方案
在云原生环境中,阿里云ARMS与Prometheus的集成提供了强大的应用实时监控解决方案。该集成结合了ARMS的基础设施监控能力和Prometheus的灵活配置及社区支持,实现了全面、精准的系统状态、性能和错误监控,提升了应用的稳定性和管理效率。通过统一的数据视图和高级查询功能,帮助企业有效应对云原生挑战,促进业务的持续发展。
39 3
|
1月前
|
消息中间件 监控 Cloud Native
云原生架构下的数据一致性挑战与解决方案####
在数字化转型加速的今天,云原生架构以其轻量级、弹性伸缩和高可用性成为企业IT架构的首选。然而,在享受其带来的灵活性的同时,数据一致性问题成为了不可忽视的挑战。本文探讨了云原生环境中数据一致性的复杂性,分析了导致数据不一致的根本原因,并提出了几种有效的解决策略,旨在为开发者和企业提供实践指南,确保在动态变化的云环境中保持数据的完整性和准确性。 ####
|
2月前
|
人工智能 Serverless API
云原生应用开发平台CAP:一站式应用开发及生命周期管理解决方案
阿里云的云应用开发平台CAP(Cloud Application Platform)是一款一站式应用开发及应用生命周期管理平台。它提供丰富的Serverless与AI应用模板、高效的开发者工具链及企业级应用管理功能,帮助开发者快速构建、部署和管理云上应用,大幅提升研发、部署和运维效能。
186 1
|
4月前
|
机器学习/深度学习 分布式计算 Cloud Native
云原生架构下的高性能计算解决方案:利用分布式计算资源加速机器学习训练
【8月更文第19天】随着大数据和人工智能技术的发展,机器学习模型的训练数据量和复杂度都在迅速增长。传统的单机训练方式已经无法满足日益增长的计算需求。云原生架构为高性能计算提供了新的可能性,通过利用分布式计算资源,可以在短时间内完成大规模数据集的训练任务。本文将探讨如何在云原生环境下搭建高性能计算平台,并展示如何使用 PyTorch 和 TensorFlow 这样的流行框架进行分布式训练。
148 2
|
4月前
|
存储 SQL 运维
“震撼发布!PolarDB-X:云原生分布式数据库巨擘,超高并发、海量存储、复杂查询,一网打尽!错过等哭!”
【8月更文挑战第7天】PolarDB-X 是面向超高并发、海量存储和复杂查询场景设计的云原生分布式数据库系统
116 1
|
5月前
|
存储 关系型数据库 分布式数据库
PolarDB,阿里云的云原生分布式数据库,以其存储计算分离架构为核心,解决传统数据库的扩展性问题
【7月更文挑战第3天】PolarDB,阿里云的云原生分布式数据库,以其存储计算分离架构为核心,解决传统数据库的扩展性问题。此架构让存储层专注数据可靠性,计算层专注处理SQL,提升性能并降低运维复杂度。通过RDMA加速通信,多副本确保高可用性。资源可独立扩展,便于成本控制。动态添加计算节点以应对流量高峰,展示了其灵活性。PolarDB的开源促进了数据库技术的持续创新和发展。
314 2
|
5月前
|
人工智能 关系型数据库 MySQL
探索和体验云原生数据库PolarDB MySQL版在AI场景中的应用
探索和体验云原生数据库PolarDB MySQL版在AI场景中的应用
190 0
|
5月前
|
存储 SQL Cloud Native
云原生数据仓库使用问题之如何将数据设置为冷存储
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
6月前
|
存储 Kubernetes 安全
云上攻防-云原生篇&K8s安全&Config泄漏&Etcd存储&Dashboard鉴权&Proxy暴露
云上攻防-云原生篇&K8s安全&Config泄漏&Etcd存储&Dashboard鉴权&Proxy暴露
146 5