【盘点篇】从安全、稳定、高可用、高性能、智能等维度看阿里云存储 2018

本文涉及的产品
对象存储 OSS,20GB 3个月
文件存储 NAS,50GB 3个月
阿里云盘企业版 CDE,企业版用户数5人 500GB空间
简介: 2008年,为了探索阿里巴巴集团大规模存储解决之道,阿里云存储自研飞天大规模的分布式存储引擎(盘古 1.0 ),从写下第一行代码开始,阿里云存储的进化之路正式开启。

2008年,为了探索阿里巴巴集团大规模存储解决之道,阿里云存储自研飞天大规模的分布式存储引擎(盘古 1.0 ),从写下第一行代码开始,阿里云存储的进化之路正式开启。

作为阿里云飞天系统里极其重要的一环,阿里云存储的使命不仅解决了双 11、双 12、蚂蚁金服等集团大规模业务对存储系统的超高要求和挑战,还通过 IDC 到云上的整体存储解决方案,打破了数据存储和流通的边界,满足不同企业的多样化需求,为企业数字化转型提供数据核心价值。

2018年,经过十年的技术发展和进化,飞天分布式存储引擎正式升级为盘古 2.0 , 具有软硬加速、极致性能、智能运维、海量规模、坚若磐石、广谱适应等六大特点,为阿里巴巴集团、阿里云智能业务的稳定运行提供强大的技术能力支撑。基于盘古 2.0 ,阿里云提供块存储、文件存储、对象存储、表格存储、HDFS 存储等存储基础服务、备份、容灾、日志服务、智能存储、在线/离线迁移、数据湖管理等存储数据服务和数据密集型行业解决方案。

可以说,阿里云存储已从技术、产品、服务等方面完成了全面进化。本文盘点了过去一年来,阿里云存储的关键性产品技术成果。

安全篇

阿里云始终将数据安全以及用户隐私作为第一原则。为此,阿里云围绕如何防范“数据不丢失”、“业务不中断”、“数据不外漏”“数据不丢失”等方面,不断夯实自身安全能力。

2018年6月,阿里云正式对外发布国内第一家云原生混合云备份服务和混合云容灾服务,提供云上备份与云容灾的保护能力,客户可实现灾备方案的分钟级部署,有效保护数据并实现业务的连续性。

HDR For Big Data 是国内首个支持混合云架构下 Hadoop 集群双活容灾方案,它可以部署于不同数据中心的Hadoop集群之间实现双向复制,解决了传统基于快照+distcp 复制技术环境下恢复点目标( Recovery Point Object ,简称 RPO )长达数小时甚至数天级别的难题,实现秒级 RPO 能力。

11953ccb77f3dc58cee1421ce6c062c6c9ca08f3

阿里云对象存储 OSS 的 WORM 特性,允许用户以“不可篡改、不可删除”的方式进行云上数据合规存储,OSS的数据加密功能涵盖线下本地加密 SDK、云上KMS 加密并支持用户以 YBOK 密钥进行加密,大大提升数据安全与合规能力。

NFS 传输加密是文件存储 NAS 新推出的基于 NFS 4.0 的传输加密功能,用户可以通过 NAS 提供的工具透明地使用 NFS 传输加密功能,充分保证用户数据在传输中的安全性。

稳定性篇

2018 年,盘古 2.0 作为阿里云智能、蚂蚁金服存储引擎,圆满通过双 11 和双 12 大促的考验,总数据量达到数百 PB ,稳定性经受住了严苛的考验。并支持了 ESSD 云盘的公测及并行文件存储 CPFS 在国家天文台 FAST 项目的输出。

过去一年,盘古团队与阿里云各技术、业务线团队一起攻克多项技术难题,让诸多新技术规模化落地同时,存储的整体稳定性得以持续提高。 SPDK QoS 技术的应用,实现数据通路 IO服务质量控制,帮助 ESSD 云盘有效控制 IO 长尾。

通过软硬一体设计,端到端的解决了 RDMA 网络协议上的弱点。同时建立了 RDMA 网络故障报警机制,有效提高 RDMA 网络全链路问题诊断响应速度,让阿里云存储成为业内屈指可数的大规模应用 RDMA 技术的存储厂商。

新一代数据动态迁移算法的研究成功,将数据迁移速度提升 3 倍,大幅缩短硬件故障对数据稳定性的影响时间。 AI 智能运维、故障预测的全面应用使得阿里云存储服务在规模不断增长的情况下,稳定性进一步提高。

高可用篇

阿里云国内首家发布同城 3AZ 部署能力的云上对象存储产品,可满足企业级客户对于”发生机房级灾难事件时数据不丢失,业务不中断“的需求。相比于建设线下同城容灾机房,OSS “同城区域冗余”存储提供 99.95% 的可用性SLA指标、12个9 数据可靠性和一键部署云上同城容灾服务能力。结合此前OSS发布了“跨区域复制”能力,可实现机房、同城、跨地域三级完整的容灾服务能力。

ae5404757e6f4ffe0840ddfb52e7938e592fd6e0

阿里云将块存储在公共云上多年积累的技术沉淀在 Apsara Block Storage 上,专为企业级客户量身打造。2018 年 6月,阿里云 Apsara Block Storage 产品正式发布,兼容多种类型的计算平台,构建高可用的大规模分布式块存储服务平台,可帮助客户轻松应对云时代下海量存储资源的敏捷存取需求。

高性能篇

2018 年6月,阿里云在推出了全新一代的超大规模、超高性能分布式块存储产品“ ESSD 云盘”,将单块云盘性能提升到 100 万 IOPS ,百微秒级别延迟的全新高度,并通过了应用规模超过数十个 PB ,史上最大的高并发 IO 挑战的 2018 双 11。

_

新一代分布式存储引擎盘古2.0在过去一年中攻克多项技术难题,让诸多新技术在多个业务场景上得到了大规模验证。如 RDMA 技术,相比 TCP 延迟降低几百us,完成了业界最大规模 RDMA 集群的稳定运行;如 SPDK 技术,削薄了存储软件栈,大幅提升了性能,帮助业务及时享受到新的软硬件相结合的技术红利;Run-to-completion 线程模型、全栈用户态 IO、无锁无线程切换等新架构使得软件栈 Latency 降低到了us级。

对象存储 OSS 提供的 Serverless 图片处理,首次大规模应用到双 11 的天猫宝贝主图处理场景。OSS 基于阿里云弹性计算提供的 FPGA 云服务,采用 HLS (high-level synthesis,高层次综合)技术自研了 Resize 和 WebP 编码模块,部署了业界最大规模 HLS 异构加速集群,使图片处理单机吞吐提升了 6 倍,时延下降10%-20%,做到了和软件无差异的压缩效率,优化了用户体验。

智能篇

基于盘古 2.0 提供的智能日志服务,针对 Ops(DevOps、SecOps、NetOps)常见问题提供智能分析、机器学习等算法帮助洞察问题,提升了开发与管理的效率。

阿里云智能存储以文档管理、图片管理和视频管理型发布等功能为云上文档、图片等数据提供一站式处理、分析、检索等管控,对不同的业务场景封装整合完整的处理能力,让数据快速流转,高效支持应用,为企业办公、在线内容管理平台、在线教育、手机相册等多种类型企业客户提供文档处理服务。

在数据智能化处理方面,对象存储 OSS 支持用户使用 SQL 查询文件的内容,使得数据提取更简单、更快速。并在多个计算场景不断优化,与多个开源社区和计算产品深度结合,采用计算存储分离设计,构建企业级存储的数据湖生态圈。

表格存储 TableStore 着力打造多元化的索引功能,SearchIndex 提供多维度条件组合检索能力,支持时序数据、元数据、轨迹数据等丰富应用场景下的数据管理; GlobalIndex 为用户提供数据的多维度组合、重排序等功能。借助多元索引能力,用户可快速查询、分析数据,提升数据的使用价值。

相关实践学习
块存储快速入门
块存储是阿里云为云服务器ECS提供的块设备产品。通过体验挂载数据盘、分区格式化数据盘(Linux)、创建云盘快照、重新初始化数据盘、使用快照回滚云盘和卸载数据盘等功能,带您快速入门块存储。
目录
相关文章
|
存储 分布式计算 算法
分布式存储单主、多主和无中心架构的特征与趋势
分布式存储单主、多主和无中心架构的特征与趋势
分布式存储单主、多主和无中心架构的特征与趋势
|
4天前
|
存储 数据采集 物联网
TDengine 集群能力:超越 InfluxDB 的水平扩展与开源优势
随着物联网、车联网等领域的快速发展,企业所面临的数据采集量呈爆炸式增长,这对 IT 基础设施和数据库提出了严峻挑战。传统单机版数据库逐渐无法应对高并发的数据写入和复杂的查询需求。因此,底层数据库必须具备水平扩展能力,以确保其能够在数据量持续增长的情况下高效运行。
12 0
|
4月前
|
存储 运维 监控
云原生时代的数据存储与计算优化策略
【7月更文挑战第15天】在数字化转型的浪潮中,云原生技术成为企业创新和效率提升的关键。本文将探索如何通过云原生架构实现数据存储和计算的优化,旨在为开发者和企业决策者提供实用的指导和建议,以应对日益增长的数据挑战。
|
6月前
|
存储 Cloud Native 对象存储
AutoMQ:基于阿里云计算与存储产品实现云原生架构升级
AutoMQ[1] 是新一代基于共享存储架构实现的云原生 Kafka。得益于其存算分离的共享存储架构,通过和阿里云合作,深度使用阿里云可靠、先进的云服务如对象存储OSS、块存储 ESSD、弹性伸缩ESS以及抢占式实例实现了相比 Apache Kafka 10倍的成本优势并且提供了自动弹性的能力。
84274 25
AutoMQ:基于阿里云计算与存储产品实现云原生架构升级
|
5月前
|
存储 NoSQL 关系型数据库
PolarDB产品使用问题之如何充分利用好产品的性能,提升并发处理能力
PolarDB产品使用合集涵盖了从创建与管理、数据管理、性能优化与诊断、安全与合规到生态与集成、运维与支持等全方位的功能和服务,旨在帮助企业轻松构建高可用、高性能且易于管理的数据库环境,满足不同业务场景的需求。用户可以通过阿里云控制台、API、SDK等方式便捷地使用这些功能,实现数据库的高效运维与持续优化。
|
4月前
|
固态存储 测试技术 数据库
最新测试揭秘:TDengine 线性扩展能力能否满足你的性能需求?
**摘要:** TDengine 的线性扩展能力通过CPU和磁盘测试得以验证。在CPU测试中,使用TDengine V3.3.0.0和taosBenchmark,随着CPU核数从4增至12,写入性能线性提升,每个CPU增加对应约50W条/秒的提升,保持CPU在瓶颈状态。磁盘IO测试中,使用低速机械盘,增加磁盘数量导致写入性能成比例增长,充分利用新增磁盘IO。测试结果表明,无论CPU还是磁盘扩展,TDengine都能有效利用资源,展示出出色的线性扩展能力。
59 0
|
6月前
|
存储 弹性计算 Cloud Native
AutoMQ:如何基于阿里云计算与存储产品实现云原生架构升级
AutoMQ:如何基于阿里云计算与存储产品实现云原生架构升级
|
6月前
|
SQL 架构师 大数据
提升企业级数据处理效率!3.0 系列版本的四个集群优化点详解
为了帮助企业更好地进行大数据处理,我们在此前 TDengine 3.x 系列版本中进行了几项与集群相关的优化和新功能开发,本文将对这几项重要优化进行详细阐述。
87 0
|
运维 数据挖掘 测试技术
函数性能探测:更简单高效的 Serverless 规格选型方案
函数性能探测:更简单高效的 Serverless 规格选型方案
709 11
|
存储 运维 监控
数据密集型系统的云原生架构与稳定性保障
本文是参加QCon全球软件开发大会(2023·北京站)专题分享后的一些总结。参加此次大会的最大感受是疫情后的快速恢复,到现场的听众座无虚席,一些场次甚至出现无座。同时也学习了其他多个专题分享,总体感觉是整个大会专业度很高,无论是从专题分享的内容、还是Q&A环节的听众互动。
283 0
数据密集型系统的云原生架构与稳定性保障