阿里云Alex Chen:数据就像浩瀚的宇宙

本文涉及的产品
对象存储 OSS,20GB 3个月
文件存储 NAS,50GB 3个月
云备份 Cloud Backup,100GB 3个月
简介: 数据驱动创新,创新鉴于未来。

每天,我们都会遇到一些没有答案的问题,比如:宇宙中有多少颗行星?


这个问题没有最终答案,毕竟,仅仅是我们所在的银河系就有60 亿颗类地行星。

JAK03775-opq454969136.jpg

而在阿里云智能资深产品总监、阿里云存储产品负责人 Alex Chen看来,今天人类生产生活中所产生的数据就像浩瀚的宇宙:数据量大,且不断膨胀;隐藏着诸多难以预见的风险;同样受到引力的束缚。而每一家企业都像一艘宇宙飞船,当翱翔在浩瀚的宇宙中时,需要行之有效的措施去应对不断快速膨胀的数据、屏蔽各种风险和抗衡各种灾难、摆脱数据引力束缚实现宇宙速度以及发现数据内隐藏的价值。


一、冷热数据分层、发挥规模效应,帮助客户降本


这是一个数据爆炸性增长的年代。据 IDC 发布的报告显示,中国数据量规模将从 2022 年的 23.88ZB 增长至 2027 年的 76.6ZB,年均增长速度 CAGR 达到 26.3%。如果对如此庞大的数据进行分类的话,可以分为需要实时访问的在线数据和不需要实时访问的离线数据(比如归档类型的磁带库)。


目前,阿里云对象存储 OSS 上已经存储了数十 EB 的数据,网盘与相册服务 PDS 为夸克、UC、阿里云盘、中国移动云盘等产品提供数据存储服务,累计服务 8 亿终端用户。为了更好地帮助客户管理这些数据,对象存储 OSS 提供了 5 种存储类型。在线数据可以放在 OSS 的标准/低频/归档类型中,离线数据则适合放在 OSS 的冷归档/深度冷归档类型中。

JAK03787-opq454968327.jpg

此前 OSS 归档类型中的数据在读取时需要解冻,但归档直读能力的发布,使得解冻的步骤可以省去,直接对数据进行访问。当需要对数据进行生命周期管理时,可以基于最后一次修改时间(Last Modified Time)以及最后一次访问时间(Last Access Time)的策略创建生命周期规则,定期将存储空间(Bucket)内的多个文件(Object)转储为指定存储类型,从而节省存储费用。此外,OSS 归档类型还新增了同城冗余规格,进一步提升了数据可靠性。


近期,阿里云存储发布了 OSS 深度冷归档类型,目录价仅为 0.75分/GB/月, 是接近磁带库的价格,并且可支持百 TB/日解冻能力,无需冗长的解冻时间。


二、全方位的数据保护,应对多种安全威胁


安全可靠是云存储立身之本。为了防范勒索病毒、系统故障、自然灾害、运维事故导致的数据丢失和损坏问题,需要在云上和本地的数据中心做统一的数据保护。通过 ECS 快照和混合云备份 HBR,可以为整机/云盘/文件/数据库等提供备份、容灾保护。


同时,HBR 提供了备份不可篡改的能力,给备份数据多一层保护;还可以将备份数据进行冷热分层,在保留时长满足审计需求的前提下,达到降本增效的目的。当涉及到多账号时,客户可以方便地将快照共享给其他授权用户,也可以使用 HBR 进行跨账号的备份。

数据保护.png

为避免 region 级别的灾难,必须做跨区域的复制。对象存储 OSS 就有从一个 region 到另外一个 region 的 replication time control,即十分钟之内这个 object 可以异步复制到另外一个城市,比如从北京复制到广州。块存储 EBS 也具备同样的异步复制的能力。


今年,阿里云所有的快照、备份库都逐步具备了同城冗余的能力。数据可分别存放在 3 个数据中心,当其中 1 个数据中心发生故障时,仍能在其他数据中心读取快照和备份数据,让企业以最低的成本去实现高可用。


在对象存储 OSS 中,有基于组织、用户和资源的访问策略。企业可以采取 Access Point 简化共享数据的权限管理复杂度,通过 Control Policy 设定安全基线进行管控,各业务部门使用 OSS 必须强制加密、强制指定 TLS 版本访问,并设置针对 VPC 的访问管控,强制 ACL 设为私有,防止 OSS 上数据泄漏。


三、存算分离,为场景化性能加速


在不同业务场景下,企业对性能的要求也不一样。一些企业应用负载(比如 OLTP、Web 缓存等场景)因为更加靠近应用的前端,会更加注重实时性,对延迟特别敏感;而相对靠后端的大数据分析场景则对带宽的需求更高,延迟敏感性相对较低。

存算分离.png

1、电商场景:ESSD AutoPL 规格,引领 IO 性能弹性新方向


在 Severless 时代,存储需要智能适配负载变化。四年前,阿里云发布了百万 IOPS 的 ESSD 云盘。它基于全新一代自主研发的分布式存储引擎盘古 2.0,适用于时延敏感的应用或者 I/O 密集型业务场景(如大型 OLTP 数据库)。以典型的电商业务为例,性能/容量耦合设计有以下挑战:


- 日常流量与业务洪峰差异巨大,平峰时期利用率低,存在大量资源浪费;

- 大促期间业务峰值时间短,且难以评估峰值需求,存在业务受损的可能。


为此,阿里云推出了面向“Serverless”时代的 ESSD AutoPL 云盘,在保持 ESSD 云盘原有功能与性能的同时,实现了云盘容量与云盘性能的解耦。用户可以在配置 ESSD AutoPL 云盘容量的同时,根据业务需求自定义云盘的预配置性能和性能突发,轻松应对电商日常运营、秒杀促销活动等多种复杂场景。识货 APP 就通过采用 ESSD AutoPL 云盘,完美解决双 11 流量洪峰问题的同时,成本相较于全部升级到 PL2 云盘低 42%,且无需长期保有。


2、数据湖场景:存算分离架构下的性能最优解

数据湖.png

前面说到,大数据分析场景有更高的带宽需求。OSS 高吞吐和低延时的服务响应能力能够有效支持各种热点类型数据的访问。为了满足更高的吞吐要求,OSS 还推出了 OSS 加速器功能,它可以缓存 OSS 中的热点对象,适用于基因训练、机器学习、大数据计算等需要大带宽且数据重复读较多的场景。


OSS 加速器是一个标准的服务端缓存服务,和计算完全解耦。同时,基于 OSS 智能元数据架构,OSS 加速器提供了传统缓存方案不具备的强一致性,当 OSS 上文件被更新时,加速器能自动识别,确保引擎读取到的都是最新数据。


在数据湖场景中,数据流动的前提包括协议上的兼容和元数据的兼容,因此多协议的访问不可或缺。对象存储是扁平化的元数据架构,一个 Bucket 里可能有十亿个文件,处理元数据(如文件重命名)时将耗费大量时间。作为云原生数据湖基础,OSS-HDFS 全面融合大数据存储生态,除提供对象存储扁平命名空间之外,还提供了分层命名空间服务。分层命名空间支持将对象组织到一个目录层次结构中进行管理,并能通过统一元数据管理能力进行内部自动转换,大大缩短了数据处理链路。


3、模型训练场景:CPFS 加速 AI 创新


不管是当前炙手可热的 AIGC,还是自动驾驶,都离不开 AI 训练。大规模的多机多卡并行训练需要高性能文件系统支撑训练过程中对数据的大吞吐读写需求。

AI创新.png

阿里云存储自 2018 年开始大规模使用 RDMA 技术,并自研了 Solar-RDMA 协议,提供稳定的高性能存储网络。CPFS 先进的元数据和数据全并行架构,可以充分利用端到端的 RDMA 网络优势,实现 I/O 加速,使 PAI-灵骏智算训练效率提升 3 倍。


文件存储 CPFS 已经实现与 OSS 之间数据双向便捷流动。在进行 AI 训练时,可将数据存放在 OSS 中,经过预处理后 Lazyload(延时加载)至 CPFS 训练,结果数据流动回 OSS 持久保存,降低数据长期存储成本。


4、高性能计算场景:弹性文件客户端助推云原生算力提升


在 Serverless 时代,传统文件存储需要向着高密、弹性、极速演进。阿里云文件存储推出弹性文件客户端(Elastic File Client,简称“EFC”),创新的端接入技术实现了高密计算端的稳定链接、性能随计算规模弹性伸缩和极速挂载能力。


弹性文件客户端的元数据缓存可以将共享文件存储 NAS 的日常元数据操作加速 10 倍,4K 的小文件打开读的速度提升 5 倍,接近本地 EXT4 的水平。创新的多客户端间 Lease 技术,保证了引入缓存加速后,仍能有效支持多客户端间的数据强一致性,保障 AI 并行训练的结果正确性。分布式数据缓存实现了吞吐性能随着计算集群的扩容而同步提升,突破文件存储的吞吐上限。


此外,EFC 还通过 CNFS 和 Fluid 与阿里云 ACK、ASK、ECI 集成,即开即用,可完美匹配科研、工业仿真、AI 训练等领域的高密度计算需求,提升数据处理效率。


四、全链路可观测精准查询,提升运维效率


云计算已然成为新时代的水电煤,需要合理地使用和管理云资源。应运而生的 Alibaba CloudLens,包括用量分析、访问分析、异常检测、安全分析、性能监控、数据保护六个模块,让企业在保障业务敏捷性的前提下,实现对 OSS/SLS/EBS/ALB 等云产品的精细化运维分析,帮助客户快速构建云产品的可观测能力、用好云。

CloudLens.png

在千行百业的数字化变革中,越来越多的企业选择在云端构建 IT 系统,提高问题诊断速度、故障排查效率十分有必要。Logs、Traces、Metrics 作为 IT 可观测性数据的三剑客,基本可以满足各类监控、告警、分析、问题排查等需求。日志服务 SLS 作为云原生观测分析平台,可对 Log、Trace 、Metric等数据进行统一存储和融合分析,并内置自动巡检、异常实时通知、根因定位等功能,帮助企业快速排障。

可观测.png

要提升数据审计、监管场景下的运维效率,元数据索引能力的加强势在必行。对象存储 OSS 通过为 Bucket 创建并维护独立的元数据管理库,并提供 9 大类元数据筛选条件,结合 5 种聚合输出方式,帮助用户在数十亿的文件中,实现秒级的数据快速索引与聚合。此外,当有新文件上传至 OSS 中,可在 10 秒钟内自动更新至索引池。

元数据索引.png

在分享的最后,Alex 也代表阿里云正式宣布首届数据洞察创新挑战赛即日启动,大赛分为智能运维赛和数据管理创新赛两个赛道,设立初赛、复赛、决赛三个环节,每个比赛有相应的赛题,根据参赛选手提交的代码质量来评定。开发者可免费参加,总奖金池高达 20 万元!(点击这里,立即参赛)

挑战赛.jpg

数字化迈向智能化,是云计算新一轮变革的主线。在企业数字化转型的道路上,阿里云存储将持续践行“稳定安全高性能,普惠智能新存储”这一理念,帮助企业翻开数字创新的下一篇章。

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
14天前
|
人工智能 数据挖掘
AI长脑子了?LLM惊现人类脑叶结构并有数学代码分区,MIT大牛新作震惊学界!
麻省理工学院的一项新研究揭示了大型语言模型(LLM)内部概念空间的几何结构,与人脑类似。研究通过分析稀疏自编码器生成的高维向量,发现了概念空间在原子、大脑和星系三个层次上的独特结构,为理解LLM的内部机制提供了新视角。论文地址:https://arxiv.org/abs/2410.19750
57 12
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
谷歌工程师Alex Irpan:2028年有10%概率实现AGI
【2月更文挑战第20天】谷歌工程师Alex Irpan:2028年有10%概率实现AGI
105 6
谷歌工程师Alex Irpan:2028年有10%概率实现AGI
|
机器学习/深度学习 人工智能 安全
学术休假一年,量子计算大牛、ACM计算奖得主Scott Aaronson加盟OpenAI
学术休假一年,量子计算大牛、ACM计算奖得主Scott Aaronson加盟OpenAI
145 0
|
机器学习/深度学习 人工智能 算法
谷歌大牛Jeff Dean单一作者撰文:深度学习研究的黄金十年
谷歌大牛Jeff Dean单一作者撰文:深度学习研究的黄金十年
146 0
|
机器学习/深度学习 人工智能 并行计算
2021 年图灵奖公布!高性能计算先驱 Jack Dongarra 获奖
3 月 30 日,2021 ACM图灵奖正式揭晓,凭借对数值算法和库的开创性贡献,72 岁的美国田纳西大学电子工程和计算机科学系教授 Jack Dongarra 获此殊荣。
280 0
2021 年图灵奖公布!高性能计算先驱 Jack Dongarra 获奖
|
机器学习/深度学习 编解码 人工智能
Jeff Dean万字长文:2020谷歌10大领域AI技术发展
2021年已经度过十余天,Jeff Dean也在酝酿后在Google AI Blog发表了一篇万字长文,回顾了谷歌AI2020年的发展与成就,同时,也展望了接下来的工作重点。
147 0
Jeff Dean万字长文:2020谷歌10大领域AI技术发展
|
机器学习/深度学习 人工智能 编解码
​深度学习先驱Yann LeCun被骂退推特:你们都很懂,从此我不说话了
在长达两周的「骂战」之后,图灵奖得主、Facebook 首席 AI 科学家 Yann Lecun 宣布,自己将退出推特。
197 0
​深度学习先驱Yann LeCun被骂退推特:你们都很懂,从此我不说话了
|
机器学习/深度学习 存储 数据采集
Jeff Dean与David Patterson:不思考体系结构的深度学习研究者不是好工程师
谷歌人工智能负责人 Jeff Dean(当时还是谷歌大脑负责人)与 2017 年图灵奖得主、体系结构巨擘 David Patterson(当时获奖结果尚未公布)联合发表了题为《计算机体系结构黄金时代:赋能机器学习革命》的文章。文章指出,机器学习算法正在革命性地着手解决人类社会最为巨大的一些挑战
160 0
Jeff Dean与David Patterson:不思考体系结构的深度学习研究者不是好工程师
|
机器学习/深度学习 人工智能 自然语言处理
Ask me anything: 深度学习专家 Yoshua Bengio 答 Reddit 网友问
reddit 上有一个很有名的 Ask Me Anything (问我任何事)栏目,会邀请一些牛人来回答网友的问题。本文节选了 Yoshua Bengio 机器学习领域的领军人物在 AMA 上的一些精彩回答,和大家分享。
212 0
Ask me anything: 深度学习专家 Yoshua Bengio 答 Reddit 网友问
|
人工智能 测试技术
DeepMind给人工智能搞了一套IQ测试题
但是,神经网络的智能到底是有推理能力,还是仅靠肤浅的统计数据?为了回答这个问题,DeepMind想了一个方法。给AI搞了一套IQ测试题。
1136 0