阿里云Alex Chen:数据就像浩瀚的宇宙

本文涉及的产品
对象存储 OSS,20GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
对象存储 OSS,恶意文件检测 1000次 1年
简介: 数据驱动创新,创新鉴于未来。

每天,我们都会遇到一些没有答案的问题,比如:宇宙中有多少颗行星?


这个问题没有最终答案,毕竟,仅仅是我们所在的银河系就有60 亿颗类地行星。

JAK03775-opq454969136.jpg

而在阿里云智能资深产品总监、阿里云存储产品负责人 Alex Chen看来,今天人类生产生活中所产生的数据就像浩瀚的宇宙:数据量大,且不断膨胀;隐藏着诸多难以预见的风险;同样受到引力的束缚。而每一家企业都像一艘宇宙飞船,当翱翔在浩瀚的宇宙中时,需要行之有效的措施去应对不断快速膨胀的数据、屏蔽各种风险和抗衡各种灾难、摆脱数据引力束缚实现宇宙速度以及发现数据内隐藏的价值。


一、冷热数据分层、发挥规模效应,帮助客户降本


这是一个数据爆炸性增长的年代。据 IDC 发布的报告显示,中国数据量规模将从 2022 年的 23.88ZB 增长至 2027 年的 76.6ZB,年均增长速度 CAGR 达到 26.3%。如果对如此庞大的数据进行分类的话,可以分为需要实时访问的在线数据和不需要实时访问的离线数据(比如归档类型的磁带库)。


目前,阿里云对象存储 OSS 上已经存储了数十 EB 的数据,网盘与相册服务 PDS 为夸克、UC、阿里云盘、中国移动云盘等产品提供数据存储服务,累计服务 8 亿终端用户。为了更好地帮助客户管理这些数据,对象存储 OSS 提供了 5 种存储类型。在线数据可以放在 OSS 的标准/低频/归档类型中,离线数据则适合放在 OSS 的冷归档/深度冷归档类型中。

JAK03787-opq454968327.jpg

此前 OSS 归档类型中的数据在读取时需要解冻,但归档直读能力的发布,使得解冻的步骤可以省去,直接对数据进行访问。当需要对数据进行生命周期管理时,可以基于最后一次修改时间(Last Modified Time)以及最后一次访问时间(Last Access Time)的策略创建生命周期规则,定期将存储空间(Bucket)内的多个文件(Object)转储为指定存储类型,从而节省存储费用。此外,OSS 归档类型还新增了同城冗余规格,进一步提升了数据可靠性。


近期,阿里云存储发布了 OSS 深度冷归档类型,目录价仅为 0.75分/GB/月, 是接近磁带库的价格,并且可支持百 TB/日解冻能力,无需冗长的解冻时间。


二、全方位的数据保护,应对多种安全威胁


安全可靠是云存储立身之本。为了防范勒索病毒、系统故障、自然灾害、运维事故导致的数据丢失和损坏问题,需要在云上和本地的数据中心做统一的数据保护。通过 ECS 快照和混合云备份 HBR,可以为整机/云盘/文件/数据库等提供备份、容灾保护。


同时,HBR 提供了备份不可篡改的能力,给备份数据多一层保护;还可以将备份数据进行冷热分层,在保留时长满足审计需求的前提下,达到降本增效的目的。当涉及到多账号时,客户可以方便地将快照共享给其他授权用户,也可以使用 HBR 进行跨账号的备份。

数据保护.png

为避免 region 级别的灾难,必须做跨区域的复制。对象存储 OSS 就有从一个 region 到另外一个 region 的 replication time control,即十分钟之内这个 object 可以异步复制到另外一个城市,比如从北京复制到广州。块存储 EBS 也具备同样的异步复制的能力。


今年,阿里云所有的快照、备份库都逐步具备了同城冗余的能力。数据可分别存放在 3 个数据中心,当其中 1 个数据中心发生故障时,仍能在其他数据中心读取快照和备份数据,让企业以最低的成本去实现高可用。


在对象存储 OSS 中,有基于组织、用户和资源的访问策略。企业可以采取 Access Point 简化共享数据的权限管理复杂度,通过 Control Policy 设定安全基线进行管控,各业务部门使用 OSS 必须强制加密、强制指定 TLS 版本访问,并设置针对 VPC 的访问管控,强制 ACL 设为私有,防止 OSS 上数据泄漏。


三、存算分离,为场景化性能加速


在不同业务场景下,企业对性能的要求也不一样。一些企业应用负载(比如 OLTP、Web 缓存等场景)因为更加靠近应用的前端,会更加注重实时性,对延迟特别敏感;而相对靠后端的大数据分析场景则对带宽的需求更高,延迟敏感性相对较低。

存算分离.png

1、电商场景:ESSD AutoPL 规格,引领 IO 性能弹性新方向


在 Severless 时代,存储需要智能适配负载变化。四年前,阿里云发布了百万 IOPS 的 ESSD 云盘。它基于全新一代自主研发的分布式存储引擎盘古 2.0,适用于时延敏感的应用或者 I/O 密集型业务场景(如大型 OLTP 数据库)。以典型的电商业务为例,性能/容量耦合设计有以下挑战:


- 日常流量与业务洪峰差异巨大,平峰时期利用率低,存在大量资源浪费;

- 大促期间业务峰值时间短,且难以评估峰值需求,存在业务受损的可能。


为此,阿里云推出了面向“Serverless”时代的 ESSD AutoPL 云盘,在保持 ESSD 云盘原有功能与性能的同时,实现了云盘容量与云盘性能的解耦。用户可以在配置 ESSD AutoPL 云盘容量的同时,根据业务需求自定义云盘的预配置性能和性能突发,轻松应对电商日常运营、秒杀促销活动等多种复杂场景。识货 APP 就通过采用 ESSD AutoPL 云盘,完美解决双 11 流量洪峰问题的同时,成本相较于全部升级到 PL2 云盘低 42%,且无需长期保有。


2、数据湖场景:存算分离架构下的性能最优解

数据湖.png

前面说到,大数据分析场景有更高的带宽需求。OSS 高吞吐和低延时的服务响应能力能够有效支持各种热点类型数据的访问。为了满足更高的吞吐要求,OSS 还推出了 OSS 加速器功能,它可以缓存 OSS 中的热点对象,适用于基因训练、机器学习、大数据计算等需要大带宽且数据重复读较多的场景。


OSS 加速器是一个标准的服务端缓存服务,和计算完全解耦。同时,基于 OSS 智能元数据架构,OSS 加速器提供了传统缓存方案不具备的强一致性,当 OSS 上文件被更新时,加速器能自动识别,确保引擎读取到的都是最新数据。


在数据湖场景中,数据流动的前提包括协议上的兼容和元数据的兼容,因此多协议的访问不可或缺。对象存储是扁平化的元数据架构,一个 Bucket 里可能有十亿个文件,处理元数据(如文件重命名)时将耗费大量时间。作为云原生数据湖基础,OSS-HDFS 全面融合大数据存储生态,除提供对象存储扁平命名空间之外,还提供了分层命名空间服务。分层命名空间支持将对象组织到一个目录层次结构中进行管理,并能通过统一元数据管理能力进行内部自动转换,大大缩短了数据处理链路。


3、模型训练场景:CPFS 加速 AI 创新


不管是当前炙手可热的 AIGC,还是自动驾驶,都离不开 AI 训练。大规模的多机多卡并行训练需要高性能文件系统支撑训练过程中对数据的大吞吐读写需求。

AI创新.png

阿里云存储自 2018 年开始大规模使用 RDMA 技术,并自研了 Solar-RDMA 协议,提供稳定的高性能存储网络。CPFS 先进的元数据和数据全并行架构,可以充分利用端到端的 RDMA 网络优势,实现 I/O 加速,使 PAI-灵骏智算训练效率提升 3 倍。


文件存储 CPFS 已经实现与 OSS 之间数据双向便捷流动。在进行 AI 训练时,可将数据存放在 OSS 中,经过预处理后 Lazyload(延时加载)至 CPFS 训练,结果数据流动回 OSS 持久保存,降低数据长期存储成本。


4、高性能计算场景:弹性文件客户端助推云原生算力提升


在 Serverless 时代,传统文件存储需要向着高密、弹性、极速演进。阿里云文件存储推出弹性文件客户端(Elastic File Client,简称“EFC”),创新的端接入技术实现了高密计算端的稳定链接、性能随计算规模弹性伸缩和极速挂载能力。


弹性文件客户端的元数据缓存可以将共享文件存储 NAS 的日常元数据操作加速 10 倍,4K 的小文件打开读的速度提升 5 倍,接近本地 EXT4 的水平。创新的多客户端间 Lease 技术,保证了引入缓存加速后,仍能有效支持多客户端间的数据强一致性,保障 AI 并行训练的结果正确性。分布式数据缓存实现了吞吐性能随着计算集群的扩容而同步提升,突破文件存储的吞吐上限。


此外,EFC 还通过 CNFS 和 Fluid 与阿里云 ACK、ASK、ECI 集成,即开即用,可完美匹配科研、工业仿真、AI 训练等领域的高密度计算需求,提升数据处理效率。


四、全链路可观测精准查询,提升运维效率


云计算已然成为新时代的水电煤,需要合理地使用和管理云资源。应运而生的 Alibaba CloudLens,包括用量分析、访问分析、异常检测、安全分析、性能监控、数据保护六个模块,让企业在保障业务敏捷性的前提下,实现对 OSS/SLS/EBS/ALB 等云产品的精细化运维分析,帮助客户快速构建云产品的可观测能力、用好云。

CloudLens.png

在千行百业的数字化变革中,越来越多的企业选择在云端构建 IT 系统,提高问题诊断速度、故障排查效率十分有必要。Logs、Traces、Metrics 作为 IT 可观测性数据的三剑客,基本可以满足各类监控、告警、分析、问题排查等需求。日志服务 SLS 作为云原生观测分析平台,可对 Log、Trace 、Metric等数据进行统一存储和融合分析,并内置自动巡检、异常实时通知、根因定位等功能,帮助企业快速排障。

可观测.png

要提升数据审计、监管场景下的运维效率,元数据索引能力的加强势在必行。对象存储 OSS 通过为 Bucket 创建并维护独立的元数据管理库,并提供 9 大类元数据筛选条件,结合 5 种聚合输出方式,帮助用户在数十亿的文件中,实现秒级的数据快速索引与聚合。此外,当有新文件上传至 OSS 中,可在 10 秒钟内自动更新至索引池。

元数据索引.png

在分享的最后,Alex 也代表阿里云正式宣布首届数据洞察创新挑战赛即日启动,大赛分为智能运维赛和数据管理创新赛两个赛道,设立初赛、复赛、决赛三个环节,每个比赛有相应的赛题,根据参赛选手提交的代码质量来评定。开发者可免费参加,总奖金池高达 20 万元!(点击这里,立即参赛)

挑战赛.jpg

数字化迈向智能化,是云计算新一轮变革的主线。在企业数字化转型的道路上,阿里云存储将持续践行“稳定安全高性能,普惠智能新存储”这一理念,帮助企业翻开数字创新的下一篇章。

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
谷歌工程师Alex Irpan:2028年有10%概率实现AGI
【2月更文挑战第20天】谷歌工程师Alex Irpan:2028年有10%概率实现AGI
85 6
谷歌工程师Alex Irpan:2028年有10%概率实现AGI
|
Java 决策智能
ACM刷题之路(十)博弈论 jack & rose
ACM刷题之路(十)博弈论 jack & rose
|
机器学习/深度学习 人工智能 算法
DeepMind攻克50年数学难题!AlphaZero史上最快矩阵乘法算法登Nature封面(2)
DeepMind攻克50年数学难题!AlphaZero史上最快矩阵乘法算法登Nature封面
160 0
|
机器学习/深度学习 人工智能 算法
DeepMind攻克50年数学难题!AlphaZero史上最快矩阵乘法算法登Nature封面(1)
DeepMind攻克50年数学难题!AlphaZero史上最快矩阵乘法算法登Nature封面
272 0
|
机器学习/深度学习 算法
物理学家80页论文证明马斯克「模拟矩阵」:宇宙是个自学成才的计算机(上)
与微软合作的理论物理学家团队发表了一个毛骨悚然的启发性理论:和人类一样,宇宙本身也在观察并学习自己的规律与结构,换句话说,我们生活在一台不断学习自身的电脑里。而且在该理论中,我们永远不会统一物理学定律。
239 0
物理学家80页论文证明马斯克「模拟矩阵」:宇宙是个自学成才的计算机(上)
|
算法 量子技术
物理学家80页论文证明马斯克「模拟矩阵」:宇宙是个自学成才的计算机(下)
与微软合作的理论物理学家团队发表了一个毛骨悚然的启发性理论:和人类一样,宇宙本身也在观察并学习自己的规律与结构,换句话说,我们生活在一台不断学习自身的电脑里。而且在该理论中,我们永远不会统一物理学定律。
138 0
物理学家80页论文证明马斯克「模拟矩阵」:宇宙是个自学成才的计算机(下)
|
机器学习/深度学习 人工智能 算法
北大博士的CVPR冠军体验:一群直男强行“认草”
今天聊聊淘系 CVPR 竞赛另一个冠军:Herbarium 2021 - Half-Earth Challenge,一个最终准确率高到外界怀疑我们雇了个植物学家参赛的故事。
北大博士的CVPR冠军体验:一群直男强行“认草”
|
机器学习/深度学习 人工智能 算法
吴恩达导师Michael I.Jordan学术演讲:如何有效避开鞍点(视频+PPT)
最近,加州大学伯克利分校教授Michael I. Jordan(吴恩达的导师)进行了一场演讲:使用合理的扰动参数增强的梯度下降法可有效地逃离鞍点,视频+图文,全是干货。
4247 0