阿里云Alex Chen:数据就像浩瀚的宇宙

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000 次 1年
日志服务 SLS,月写入数据量 50GB 1个月
简介: 数据驱动创新,创新鉴于未来。

每天,我们都会遇到一些没有答案的问题,比如:宇宙中有多少颗行星?


这个问题没有最终答案,毕竟,仅仅是我们所在的银河系就有60 亿颗类地行星。

JAK03775-opq454969136.jpg

而在阿里云智能资深产品总监、阿里云存储产品负责人 Alex Chen看来,今天人类生产生活中所产生的数据就像浩瀚的宇宙:数据量大,且不断膨胀;隐藏着诸多难以预见的风险;同样受到引力的束缚。而每一家企业都像一艘宇宙飞船,当翱翔在浩瀚的宇宙中时,需要行之有效的措施去应对不断快速膨胀的数据、屏蔽各种风险和抗衡各种灾难、摆脱数据引力束缚实现宇宙速度以及发现数据内隐藏的价值。


一、冷热数据分层、发挥规模效应,帮助客户降本


这是一个数据爆炸性增长的年代。据 IDC 发布的报告显示,中国数据量规模将从 2022 年的 23.88ZB 增长至 2027 年的 76.6ZB,年均增长速度 CAGR 达到 26.3%。如果对如此庞大的数据进行分类的话,可以分为需要实时访问的在线数据和不需要实时访问的离线数据(比如归档类型的磁带库)。


目前,阿里云对象存储 OSS 上已经存储了数十 EB 的数据,网盘与相册服务 PDS 为夸克、UC、阿里云盘、中国移动云盘等产品提供数据存储服务,累计服务 8 亿终端用户。为了更好地帮助客户管理这些数据,对象存储 OSS 提供了 5 种存储类型。在线数据可以放在 OSS 的标准/低频/归档类型中,离线数据则适合放在 OSS 的冷归档/深度冷归档类型中。

JAK03787-opq454968327.jpg

此前 OSS 归档类型中的数据在读取时需要解冻,但归档直读能力的发布,使得解冻的步骤可以省去,直接对数据进行访问。当需要对数据进行生命周期管理时,可以基于最后一次修改时间(Last Modified Time)以及最后一次访问时间(Last Access Time)的策略创建生命周期规则,定期将存储空间(Bucket)内的多个文件(Object)转储为指定存储类型,从而节省存储费用。此外,OSS 归档类型还新增了同城冗余规格,进一步提升了数据可靠性。


近期,阿里云存储发布了 OSS 深度冷归档类型,目录价仅为 0.75分/GB/月, 是接近磁带库的价格,并且可支持百 TB/日解冻能力,无需冗长的解冻时间。


二、全方位的数据保护,应对多种安全威胁


安全可靠是云存储立身之本。为了防范勒索病毒、系统故障、自然灾害、运维事故导致的数据丢失和损坏问题,需要在云上和本地的数据中心做统一的数据保护。通过 ECS 快照和混合云备份 HBR,可以为整机/云盘/文件/数据库等提供备份、容灾保护。


同时,HBR 提供了备份不可篡改的能力,给备份数据多一层保护;还可以将备份数据进行冷热分层,在保留时长满足审计需求的前提下,达到降本增效的目的。当涉及到多账号时,客户可以方便地将快照共享给其他授权用户,也可以使用 HBR 进行跨账号的备份。

数据保护.png

为避免 region 级别的灾难,必须做跨区域的复制。对象存储 OSS 就有从一个 region 到另外一个 region 的 replication time control,即十分钟之内这个 object 可以异步复制到另外一个城市,比如从北京复制到广州。块存储 EBS 也具备同样的异步复制的能力。


今年,阿里云所有的快照、备份库都逐步具备了同城冗余的能力。数据可分别存放在 3 个数据中心,当其中 1 个数据中心发生故障时,仍能在其他数据中心读取快照和备份数据,让企业以最低的成本去实现高可用。


在对象存储 OSS 中,有基于组织、用户和资源的访问策略。企业可以采取 Access Point 简化共享数据的权限管理复杂度,通过 Control Policy 设定安全基线进行管控,各业务部门使用 OSS 必须强制加密、强制指定 TLS 版本访问,并设置针对 VPC 的访问管控,强制 ACL 设为私有,防止 OSS 上数据泄漏。


三、存算分离,为场景化性能加速


在不同业务场景下,企业对性能的要求也不一样。一些企业应用负载(比如 OLTP、Web 缓存等场景)因为更加靠近应用的前端,会更加注重实时性,对延迟特别敏感;而相对靠后端的大数据分析场景则对带宽的需求更高,延迟敏感性相对较低。

存算分离.png

1、电商场景:ESSD AutoPL 规格,引领 IO 性能弹性新方向


在 Severless 时代,存储需要智能适配负载变化。四年前,阿里云发布了百万 IOPS 的 ESSD 云盘。它基于全新一代自主研发的分布式存储引擎盘古 2.0,适用于时延敏感的应用或者 I/O 密集型业务场景(如大型 OLTP 数据库)。以典型的电商业务为例,性能/容量耦合设计有以下挑战:


- 日常流量与业务洪峰差异巨大,平峰时期利用率低,存在大量资源浪费;

- 大促期间业务峰值时间短,且难以评估峰值需求,存在业务受损的可能。


为此,阿里云推出了面向“Serverless”时代的 ESSD AutoPL 云盘,在保持 ESSD 云盘原有功能与性能的同时,实现了云盘容量与云盘性能的解耦。用户可以在配置 ESSD AutoPL 云盘容量的同时,根据业务需求自定义云盘的预配置性能和性能突发,轻松应对电商日常运营、秒杀促销活动等多种复杂场景。识货 APP 就通过采用 ESSD AutoPL 云盘,完美解决双 11 流量洪峰问题的同时,成本相较于全部升级到 PL2 云盘低 42%,且无需长期保有。


2、数据湖场景:存算分离架构下的性能最优解

数据湖.png

前面说到,大数据分析场景有更高的带宽需求。OSS 高吞吐和低延时的服务响应能力能够有效支持各种热点类型数据的访问。为了满足更高的吞吐要求,OSS 还推出了 OSS 加速器功能,它可以缓存 OSS 中的热点对象,适用于基因训练、机器学习、大数据计算等需要大带宽且数据重复读较多的场景。


OSS 加速器是一个标准的服务端缓存服务,和计算完全解耦。同时,基于 OSS 智能元数据架构,OSS 加速器提供了传统缓存方案不具备的强一致性,当 OSS 上文件被更新时,加速器能自动识别,确保引擎读取到的都是最新数据。


在数据湖场景中,数据流动的前提包括协议上的兼容和元数据的兼容,因此多协议的访问不可或缺。对象存储是扁平化的元数据架构,一个 Bucket 里可能有十亿个文件,处理元数据(如文件重命名)时将耗费大量时间。作为云原生数据湖基础,OSS-HDFS 全面融合大数据存储生态,除提供对象存储扁平命名空间之外,还提供了分层命名空间服务。分层命名空间支持将对象组织到一个目录层次结构中进行管理,并能通过统一元数据管理能力进行内部自动转换,大大缩短了数据处理链路。


3、模型训练场景:CPFS 加速 AI 创新


不管是当前炙手可热的 AIGC,还是自动驾驶,都离不开 AI 训练。大规模的多机多卡并行训练需要高性能文件系统支撑训练过程中对数据的大吞吐读写需求。

AI创新.png

阿里云存储自 2018 年开始大规模使用 RDMA 技术,并自研了 Solar-RDMA 协议,提供稳定的高性能存储网络。CPFS 先进的元数据和数据全并行架构,可以充分利用端到端的 RDMA 网络优势,实现 I/O 加速,使 PAI-灵骏智算训练效率提升 3 倍。


文件存储 CPFS 已经实现与 OSS 之间数据双向便捷流动。在进行 AI 训练时,可将数据存放在 OSS 中,经过预处理后 Lazyload(延时加载)至 CPFS 训练,结果数据流动回 OSS 持久保存,降低数据长期存储成本。


4、高性能计算场景:弹性文件客户端助推云原生算力提升


在 Serverless 时代,传统文件存储需要向着高密、弹性、极速演进。阿里云文件存储推出弹性文件客户端(Elastic File Client,简称“EFC”),创新的端接入技术实现了高密计算端的稳定链接、性能随计算规模弹性伸缩和极速挂载能力。


弹性文件客户端的元数据缓存可以将共享文件存储 NAS 的日常元数据操作加速 10 倍,4K 的小文件打开读的速度提升 5 倍,接近本地 EXT4 的水平。创新的多客户端间 Lease 技术,保证了引入缓存加速后,仍能有效支持多客户端间的数据强一致性,保障 AI 并行训练的结果正确性。分布式数据缓存实现了吞吐性能随着计算集群的扩容而同步提升,突破文件存储的吞吐上限。


此外,EFC 还通过 CNFS 和 Fluid 与阿里云 ACK、ASK、ECI 集成,即开即用,可完美匹配科研、工业仿真、AI 训练等领域的高密度计算需求,提升数据处理效率。


四、全链路可观测精准查询,提升运维效率


云计算已然成为新时代的水电煤,需要合理地使用和管理云资源。应运而生的 Alibaba CloudLens,包括用量分析、访问分析、异常检测、安全分析、性能监控、数据保护六个模块,让企业在保障业务敏捷性的前提下,实现对 OSS/SLS/EBS/ALB 等云产品的精细化运维分析,帮助客户快速构建云产品的可观测能力、用好云。

CloudLens.png

在千行百业的数字化变革中,越来越多的企业选择在云端构建 IT 系统,提高问题诊断速度、故障排查效率十分有必要。Logs、Traces、Metrics 作为 IT 可观测性数据的三剑客,基本可以满足各类监控、告警、分析、问题排查等需求。日志服务 SLS 作为云原生观测分析平台,可对 Log、Trace 、Metric等数据进行统一存储和融合分析,并内置自动巡检、异常实时通知、根因定位等功能,帮助企业快速排障。

可观测.png

要提升数据审计、监管场景下的运维效率,元数据索引能力的加强势在必行。对象存储 OSS 通过为 Bucket 创建并维护独立的元数据管理库,并提供 9 大类元数据筛选条件,结合 5 种聚合输出方式,帮助用户在数十亿的文件中,实现秒级的数据快速索引与聚合。此外,当有新文件上传至 OSS 中,可在 10 秒钟内自动更新至索引池。

元数据索引.png

在分享的最后,Alex 也代表阿里云正式宣布首届数据洞察创新挑战赛即日启动,大赛分为智能运维赛和数据管理创新赛两个赛道,设立初赛、复赛、决赛三个环节,每个比赛有相应的赛题,根据参赛选手提交的代码质量来评定。开发者可免费参加,总奖金池高达 20 万元!(点击这里,立即参赛)

挑战赛.jpg

数字化迈向智能化,是云计算新一轮变革的主线。在企业数字化转型的道路上,阿里云存储将持续践行“稳定安全高性能,普惠智能新存储”这一理念,帮助企业翻开数字创新的下一篇章。

相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
相关文章
|
机器学习/深度学习 编解码 算法
yolo原理系列——yolov1--yolov5详细解释
yolo原理系列——yolov1--yolov5详细解释
1616 0
yolo原理系列——yolov1--yolov5详细解释
|
存储 人工智能 分布式计算
云栖实录 | 阿里云 OpenLake 解决方案重磅发布:多模态数据统一纳管、引擎平权联合计算、数据共享统一读写
阿里云 OpenLake 解决方案重磅发布,构建大数据、搜索、AI 一体化的能力体系,实现多模态数据统一纳管、多种计算引擎平权计算、大数据 AI 一体化开发,助力企业基于数据资产构筑竞争力。
1134 10
云栖实录 | 阿里云 OpenLake 解决方案重磅发布:多模态数据统一纳管、引擎平权联合计算、数据共享统一读写
|
11月前
|
存储 人工智能 数据处理
Data+AI双轮驱动,阿里云存储服务全面升级
近日,2024云栖大会现场,阿里云宣布对其存储服务进行全面升级,围绕 Storage for AI 与 AI in Storage 两大领域,提出“4 Any + 3 AI ”的升级方向,揭示存储基础设施与AI的双向赋能路径。阿里云存储产品将支持更多AI业务高效创新, 同时 AI 技术也将助力基础设施迭代,支持企业更好地管理数据资产。
1329 10
|
存储 人工智能 安全
CPFS深度解析:并行文件存储加速AI创新
在生成式AI的大潮中,并行文件系统作为高性能数据底座,为AI算力提供高吞吐、低延迟的数据存储服务。在本话题中,我们将介绍阿里云并行文件存储CPFS针对AI智算场景而提供的产品能力演进与更新,深入讲解在性能、成本、稳定、安全等方面的技术创新。
886 0
|
存储 运维 监控
降本 60%!小熊油耗使用阿里云 SAE 更加稳定可靠
小熊油耗在进行架构升级时,进行了广泛的市场调研,深入分析了国内多家云服务商。经过对比多种 IaaS 层云主机方案及 Serverless 产品的部署策略,他们最终选择了阿里云Serverless 应用引擎 SAE。小熊油耗认为,阿里云能给他们提供更强的安全感,安全感来自于阿里云是一个更大的平台:历史最悠久,用户最多、产品最丰富、配套工具众多、技术支持体系成熟,阿里云 SAE,不仅在稳定性上表现卓越,在细粒度的成本控制和极致的弹性能力上表现也非常出色,而且免运维,完美契合了小熊油耗作为一家细分领域小而美的公司的需求。
874 10
|
存储 人工智能 自然语言处理
Lindorm作为AI搜索基础设施,助力Kimi智能助手升级搜索体验
月之暗面旗下的Kimi智能助手在PC网页、手机APP、小程序等全平台的月度活跃用户已超过3600万。Kimi发布一年多以来不断进化,在搜索场景推出的探索版引入了搜索意图增强、信源分析和链式思考等三大推理能力,可以帮助用户解决更复杂的搜索、调研问题。 Lindorm作为一站式数据平台,覆盖数据处理全链路,集成了离线批处理、在线分析、AI推理、融合检索(正排、倒排、全文、向量......)等多项服务,支持Kimi快速构建AI搜索基础设施,显著提升检索效果,并有效应对业务快速发展带来的数据规模膨胀和成本增长。
|
对象存储 数据库
2025年 | 10月云大使推广奖励规则
云大使推广返利活动,企业新用户下单返佣加码5%,推广最高返佣45%,新老用户都可参与返利活动。
97938 52
|
存储 人工智能 文件存储
阿里云吴结生:面向大规模数据智能的阿里云存储创新
近年来,越来越多人意识到,我们正处在一个数据爆炸式增长的时代。IDC 预测 2027 年全球产生的数据量将达到 291 ZB,与 2022 年相比,增长了近 2 倍。其中 75% 的数据来自企业,每一个现代化的企业都是一家数据公司。
1242 10
阿里云吴结生:面向大规模数据智能的阿里云存储创新
|
自然语言处理 算法 IDE
求职季来了,让通义灵码陪你高效备战
技术岗面试有方法:用通义灵码提升编程实战能力。通义灵码作为智能编码助手,在求职时也可以成为程序员的“冲刺搭子”,提供精选面试模拟题、精准解析编程难题、秒速生成高效代码、优化算法思维等,从理论到实战,帮助开发者提升面试表现,快来体验吧,还有万份大礼等你赢取哦~
19034 10
|
存储 SQL 人工智能
【云栖实录】Hologres3.0全新升级:一体化实时湖仓平台
2024年云栖大会,Hologres 3.0全新升级为一体化实时湖仓平台,通过统一数据平台实现湖仓存储一体、多模式计算一体、分析服务一体、Data+AI 一体,发布 Dynamic Table、External Database、分时弹性、Query Queue、NL2SQL 等众多新的产品能力,实现一份数据、一份计算、一份服务,极大提高数据开发及应用效率。同时,Hologres 的预付费实例年付折扣再降15%,仅需7折,不断帮助企业降低数据管理成本,赋能业务增长。