OSS 深度解析:Data + AI 时代的对象存储

简介: 在 Data + AI 时代,随着大数据分析和 AI/ML 工作负载的进一步融合,对象存储 OSS 作为面向 AI 时代的数据基础设施,迎来了新的挑战与创新机遇。本话题我们将会介绍对象存储的能力创新,深度解读对象存储在实现稳定、安全、高性能和低成本背后的技术进展,并展望未来 AI 驱动趋势下的技术发展方向。

1. 对象存储与数智融合

1.1 加速业务创新,数据成为数智融合时代的源动力

时代有两个标签,第一个标签为数字化。许多客户从事数字化转型,并利用大数据分析的技术提升商业决策的效率和准确性,驱动整个业务的回报率。另一标签为智能化,该标签作为日常工作的一环,许多人采用AI的技术将所有的APP进行改造。包括互联网公司日常系统搜索推荐广告,带现金流的业务,也在持续利用AI大模型的能力去改造。

大背景下有两个典型趋势,第一是数据湖和数据仓库的边界。随着Iceberg湖底图存储技术的快速普及,湖和仓的边界在模糊与融合。

互联网新零售实时的业务场景,实时的数据分析比重在快速提升,另一方面AI和大数据在快速的融合。AI方面做数据的预处理时,会用spark去做数据的清洗,清洗好的数据,高质量的数据集,同时又会给模型的训练去提升模型训练的性能准确度,包括泛化能力。训练好的模型,反过又会在推荐系统搜索和广告的业务里去提升对客户喜好精准度的判断。AI和大数据也在快速的融合。

1.2 数智融合时代,对象存储面临的挑战

对象存储作为数据湖的底座,已经变成了AI数据库的底座,承载着不同的workload。workload持续的发生变化,给客户带新的挑战。挑战包括:安全挑战,性能挑战,从客户端到服务端性能的挑战。多个业务部门在共享资源池时,如何保证性能的同时做到很好的隔离。在面向海量的非结构化的多模态的数据时,如何快速的发现目标数据,如何去提升数据的质量。最后如何基于OSS快速的去构建rag类似的的AI的应用,如何能够去简化。

1.3 构建AI-Ready Data Infra,对象存储全面升级多项能力

对象存储为了应对以上挑战,升级了许多能力。

第一是安全能力,在权限管控和面向AI场景的安全,会有新的能力的发布。第二是端到端的性能,整个基于开放的生态,从不同的计算端和计算框架到服务端的整个能力,会有较多的发布。第三是在多模态的数据的清洗,质量的提升和数据集的构建出现新的能力,第四是工具升级,全面的提升使用体验。以下为大家带来4个能力的详细介绍。

多层级细粒度权限管控,提供面向AI的原生安全能力

OSS工作的基础的中心是安全,是一切工作的重心。在安全领域,权限管控有面向组织角色和资源的权限管控能力。去年发布的access point,很多客户已经在使用access point去简化多个业务部门在访问桶时,整个权限的管控和管理的工作。另外的能力分别是阻止公共访问Bucket默认策略、支持Private Link,以及原生内容安全,恶意文件检测是针对“AIGC”场景的多模态内容安全检测,快速识别常见病毒,防止恶意文件传播和执行,保障原生内容安全。

首先分享的第一个案例搜狐智媒,使用Private Link能力实现跨云的OSS的访问。在上云的客户可能都会面临到该场景,首先有自己的IPC,数据放在云上的OSS,有三方的弹性云资源。在另外云上,希望跨云去通过IPC中转去访问OSS,由于整个的100网段被线下的IPC和云上内网地址占用,有个内网地址冲突问题。第二在访问模式之下,通过打洞的方式很难去做双端的,不管是服务端还是对端的客户流量的健全和安全的防护。使用Private Link OSS之后,可以很好的解决相关问题。整个内网地址冲突只需要建终端节点endpoint,通过域名进行访问即可。第二在整个的双端访问的过程可设置安全组,可设置网络的AC2,可设置RAM的policy,保证整个通过end point进来的流量和客户,以及访问的资源更加安全健全。

第二个案例著名的云游戏公司,在游戏上云之前,对客户上传的图片和头像过去都要在自建的场景里使用三方服务逐步进行内容安全检测。上云之后很简单,使用 OSS 原生内容安全服务能力,进行图片类文件的安全合规性审核,只需要在上传文件时打开能力即可。同时针对aigc的场景(很多人采用aigc生成的图片作为自己的头像或论坛的附件)专门特制的基线检测,非常简单易用,无需自己去搭建安全的检测服务和挪动数据,可以直接使用OSS的安全能力。

其次,对象存储还支持检测多类型恶意文件,阻断病毒 & 木马传播与运行,数据相关客户经常发现恶意文件如蠕虫,木马,病毒,恶意文件会对业务系统正常运行造成困扰。跟阿里云安全团队合作,恶意文件检测能力成为OSS原生的能力,能够为客户提供近20多个类型的恶意文件的检测。试用期提供1000个文件的免费检测quarter,使用过程中可选择全量或增量,支持5级的解压的层级支持能力,带给客户在防范木马、蠕虫、病毒时更简便的使用体验。

面向多种计算引擎和AI框架,实现从客户端到服务端的全链路高性能

实现了客户端性能大幅提升。包括Connector for AI/ML 全新发布,面向训练集数据高吞吐拉取。面向AI交互式开发和模型快速加载,OSSFS全新发布,会有新的直读的模式带更好的性能,CKPT 模型加载性能提升3.6倍。最后更多地域默认性能提升,加速器提升更高性能,降低客户的使用门槛。重磅推出资源池 QoS实现多业务共池性能隔离,支持灵活调配,降低不同业务之间影响。

开放生态,面向训练和推理,提供高性能客户端

在开放生态有两个新发布。Pytorch是在算法科学家在AI训练时的主流AI框架,全新发布的OSS connector for AI的machine learning,只需要在计算端去安装pytorch的connector,相比于传统的Fuse客户端去访问OSS挖取数据集(映射式的数据集与迭代式的数据集),整体性能提升数倍。

另一模式,pytorch会基于清单文件,直接去创建数据集。该场景之下,相比于原有模式能够大幅提升性能。通过相关测试得出数据。首先是25.6万图片的加载的测试,通过新的connector和相比于传统的fuse客户去拉取数据集,大概性能提升了14倍。另一种模式通过list文件构建数据集和通过Manifest的清单文件直接创建数据集的训练的任务的启动速度也提升了44倍。

以上功能已上线,可在OSS的产品动态里下载使用。

legacy的应用对文件的接口有强的依赖,今年全新升级OSSFS到1.91.3版本,新增了直读模式,可直接把数据集,或模型直接落到内存里面去,不再受计算单上的本地块设备的性能所约束。测试结果如下,如BIN 模型文件加载性能提升3.6倍,提升了数据链路的加载时间,与此同时,新增 readdir 操作优化参数,10万个文件目录 list 操作性能提升 6 倍,加强元数据的操作性能,OSSFS1.91.3版本正式发布了,欢迎去官网下载使用。

过去 5 年,数据湖规模增长近百倍,多业务共池使用性能成为常态

数据湖一直是OSS重要场景,从团队视角和客户一起建设数据湖的过程中,5年的时间单客户维度的数据库的规模在快速提升。不管是从容量,在2020年几个Top的客户大概是几十PB的规模,目前客户在云上有数EB的规模的数据湖。第二吞吐性能,从百Gbps的典型需求,变成了匹配数Tbps的存储规模,需要提供10+ Tbps的整体内网读和写的带宽。

在大性能和规模增长的背景之下,客户上面跑的workload也在多种多样化,原有可能只是简单的离线的分析,只需要几百GB几十PB就够了。上面可能有AI的工作负担,大数据分析的工作负担,内容分发的工作负载,有数据采集的工作负载。大量工作负载提出挑战:业务共池访问时如何合理进行性能隔离;隔离的同时,如何发挥整个资源池的性能最大化;出现争抢时,如何按业务优先级进行流控出现争抢;是否可以灵活设置策略,让管理员能识别性能的风险解决不同业务之间的优先级的问题;是否具备全面的可观测性,持续优化配置

image.png

上图左为2020年的客户的典型的场景,右为目前云上数亿级别的客户数据库。上面有很多的业务,下面有很多的桶,不同的业务和不同的桶之间有不同的业务部门在使用,如何去共享的高性能,做好隔离,分时复用,在发布资源池QoS能力后问题得到了解决。

OSS全新发布资源池QoS能力,保障多种业务共池高效运行

使用时可以把多个OSS Bucket放到资源池的QoS组里,所有的Bucket共享资源池化性能,也可针对单个桶去设置MAX的吞吐或QPS,同时可超配,即可最大化的发挥整个资源池的共享的性能效率。在基础之上,也可根据业务的高峰期和低峰期快速的对每桶单独的QoS做调整。如果有临时的业务与插入,可避免对高优先级业务产生影响。同时支持丰富的流控事件,当某个孔出现了流量的争抢,或出现的流量长期达到限速时,可快速的通过可观测性拿到数据和报警,可分钟级的通过API和控制台进行调整满足业务的快速的变化。

OSS加速器为AI负载,提供持续普惠的低延迟和高吞吐

加速器相比于以前的版本,做了进一步的优化。优化体现为持续普惠的低延迟和高吞吐的能力。核心有变化。首先起步的容量从原有20tb缩减成50GB,客户使用的容量的门槛降低了99%。中小型AI的开发者或应用行情可能只有几十GB的模型文件,可通过加速器高效的获得很好的低延时的吞吐能力。另外,burst的能力从40GB升级到100GB,吞吐的密度提升了50%,有多种整体策略,可做异步或同步的预热。

海艺AI为国内领先人工智能绘画工具的供应商,很多设计师都会用海艺平台去创建,用AI的能力去帮助去快速的出图。但有些客户有不同业务风格的需求,设计师需要在不同的模型之间快速的去切换,较繁琐。

因此需要把所有的模型放在很热的管理缓存层里,为设计师提供无缝切换的能力,但成本较高。使用OSS加速器之后,可以将产量的模型文件放在OSS里,同时享受海量的扩展能力和低成本。同时把Top访问的模型文件提前录到加速器里进行使用,相比原有模式,整体的热模型的访问性能提升5倍,同时整体的总预热成本并没有上升很多。由于加速器跟OSS强一致,应用管理会更加简单,全托管的基于lru自动会淘汰一种算法。在降低了加速器门槛后,更多的客户选择使用OSS加速器做AI在推理场景下的使用。

OSS数据索引支持AI检索,构建高质量数据集和AI应用

去年OSS数据索引讲的是具备元数据基于标量的索引能力,可根据OSSmeta或用户自定义的meta去做快速检索。今年新增了向量检索的能力,即不需要通过meta去做数据的检索,可通过自然语言告诉需要检索日落的照片,或作为产品经理,需要检索2020年评审通过的产品设计文档。OSS会自动的把目标文件返回。通过该方式简化过程,无需再去对原始的文件做OCR的扫描,做分时做embedding,自己去挂向量数据库,再挂开源的大模型,把整个流程搭起,直接开启向量检索的功能,一步操作即可实现类似的效果。希望通过AI surface的能力,帮助客户更好的去管理和发现Bucket海量的数据。

接下来为大家介绍典型的应用场景,首先结合OSS本身的图片处理,视频和文本处理能力,OSS可在高质量的数据集的准备过程之中具有很好的效果。结合向量检索能力,寻找目标的数据会变得更加简单。可把寻找目标数据和对目标数据做处理串到同一工作流里面,在数据上传之后,即可通过工作流快速的去构建高质量的数据集。也可通过前面的的拍套体的框架,把数据集构建起,去录制到CPU、GPU里面进行训练,是完整的端到端的链路。第二如果想在内部快速地去实现AI应用,但对RAG向量数据库等感到陌生复杂,可用该能力实现内部数据构建内部知识库和问答机器人,只需要调用OSS的API即可快速的进行知识检索,也是非常方便非常利于的中小客户去快速验证AI应用和创新的想法。

多项SDK和工具升级,全面提升用户使用体验

目前多项 SDK和工具豆进行了升级。OSS SDK全新升级到V2的版本,不仅更加稳定,单个的性能也有快速的提升,同时OSS Util 和OSS Browser也都升级到了2.0,这些都是我们的OSS客户经常使用的工具。

OSS util 2.0OSS Browser 2.0作为新一代多平台管理工具,相比于1.0的版本,有更多的全新的命令行的组织方式,可支持多级命令,有多个配置时,可快速的灵活的切换。对于客户原有一条命令下去,数据丢失或MySQL没有设置正确,可通过自主检测工具命令验证命令实现的效果,再正确的配置到生产环境里面。Browser可进行快速的文件的管理上传和下载。全新的2.0,有全新的视觉的交互的效果,下载速度更快,同时支持云账号的登录。

OSS自助检测工具,快速诊断,解决常见问题。首先原有程序当发现OSS有报错,只能拿到一段错误的描述信息。描述性无法快速的去定位错误。两段式的EC错误码有功能类别,可快速的发现是哪个功能上出现的错误。第二,功能下有多个错误的场景,可快速的通过功能的错误码去定位到具体是哪一步操作或哪配置出现问题。目前有1180个错误码并且在持续更新,同时在官网有1180个对应的错误码的文档,只要拿到错误码对应文档,就快速的能够定位问题解决。

针对计量计费,有很好的检测工具。当账单有非预期的账单的溢出,原有功能需要通过工单跟去做交互一轮的查询。现在可通过OSS控制台,打开计量计费的检测工具,就会提示在哪些地方可能是还在按量付费,超出了包的范围,超出了多少,会给建议,并可根据建议自主选择是继续按量付费或用包覆盖。希望客户在使用OSS时从前面的安全性能到灵活的数据管理和组织的能力,最后到整个的客户体验都有比较不一样的感受。

2. 诸多产品能力升级的背后关键技术解读

2.1 OSS技术能力的螺旋上升特征

云服务是螺旋上升式的开发过程。首先为功能,功能上不断的去完善稳定性,安全性能,成本。随着用的越多,功能逐渐增多。在功能上面做更多的开发,当稳定性性能与原有有冲突需要解决,此为不断迭代的过程。迭代中快速的交付能力非常关键,发现稳定性问题,安全漏洞是否能够快速上线与快速恢复很重要。

2.2 OSS PyTorch Connector for AI/ML

首先是AI场景,场景特征非常明显,需要对大文件的顺序读,要很多的线程并发的访问下面的数据,因为有可能大文件也有可能是不同的文件,数据的预读的效果,甚至元数据的优化,是跟场景结合的优化才能完成。此与业界相同,专门做了大的实时的运行库和优化,而没有用开源的实现库专门实现场景需要的功能达到相关能力。

2.3 资源池QoS功能支撑AI场景的流控

第二个支撑AI场景的是 QoS资源池,技术实现核心的关键是左边场景要提供API的能力,客户可按照需要的时间点动态的调配值满足不同应用在不同时段的性能要求,Open API 的能力。第二个就在上面要提供每一个提供租户,租户在设置限制是限制在租户上面的,实现租户级的流控,是配置到桶上面的,在后端的存储上面桶也要做好流控的设计,中间图是讲应用可能是多个桶组成的,如何在多个桶上面去实现流控,前端有租户级的后端有统级的,多个桶时是网络级的,流控,要在基础层做好网络级的流控,这三层基数完成就具备友好的支撑能力。

2.4 OSSFS持续优化为AI场景提供更佳性能

OSSFS以及最新对象存储的定位接口都是更好的让在不能使用对象接口的应用上面做让更好用的方案。随着AI的兴起,很多的AI用要求更高的性能,此时老的版本性能中,所有读出的数据都会在内存里面,再下盘,用磁盘做缓存,虽然是增大了缓存的容量,但顺序读根本不需要的缓存缓存数据,命中也不是很高,下盘也影响性能。新版本多了直读模式,直通模式减少硬盘的开销,性能大幅提升。

2.5 Private Link功能为AI应用提供更优安全能力

随着GPU的兴起,数据更多的是跟着GPU走,而不是计算靠着数据走。跟着GPU走有现实的问题,万卡建设的地方不同,数据要进行访问,需要在自己的idc或在云上访问OSS的数据。Private Link解决该问题,建立了Link之后,在云上的VPC和idc都能访问,带宽可做的很大, IP地址也是私网的IP地址,完美的解决场景的技术需求。

2.6 整合AI能力的OSS MetaQuery向量检索功能

讲解如何利用AI的技术做好OSS的检索能力。在OSS方面采用两个存储线的关键技术,一是智能媒体管理,做相关工作是在就近的OSS的数据搭建了一层数据。好处为既享受了AI的算法,同时又是靠近OSS的数据处理,减少了在云上的网络通路,可提高处理数据的效率,能够快速的高效的低时延的提取出元数据。支持体向量检索,即存储的另外产品叫表格存储Tablestore。提供了很强大的索引能力,包括向量索引和组合索引,各种查询的能力,这是多产品的组合,也不单单的在云上就随便搭的,而是内部的网络链路的优化部署上面的优化运维上面的优化让整个看起OSS的产品。体验也非常的简单,可达到一键配置就开箱即用的效果。

2.7 稳定性提升

去年云栖大会专门讲了12个9达成的理论上的技术和面的技术点。今年重点做了数据调研的工作,数据校验很多时候可能说每一层都会做,在底层硬件层也做,架构里面盘古层也做,KV索引成一层也做元数据也做,以前联动做的不好,联动做的不好,就会存在问题。如晚上都配置起一起去做调研工作,就会导致系统io一下升高了,升高了之后就会影响整个系统的健康度,有可能就会导致错误。因此要需要首先就需要协调校验数据的工作构成之间的时间,让配合的很好。第二个配合时校验时是可上下利用的,如在底层校验出某个数据块有错了之后,可通知上面一层,可能相关的某数据可能有问题,即可做细腻度的调研,而不用说各层都全部去扫,开销就很大了。在云上,天天都在做数据校验的工作,工作非常重要,对于保证数据不丢是非常关键的点,现在涉及到数据变动的调研,全部跟着版本一起走的,每个发版本就全部联动起,一起更新。工作都是做成了自动化工作流,非常的方便具有可靠性。

第二做稳定性里面的可用性提升,SLA里面达到4个9一个5可用性,里面的关键技术,包括如何去衡量机房服务器软件可用性的能力。在此上24年重点是做好1-5-10的能力跟踪和演练,1-5-10可能在乎数字一就一分钟之内告警要做出,细化里面的工作很多,不断的开发新特性,对特性的告警覆盖度,是否覆盖到了每一节东西,精准度告出的是否准确,因为系统做大了,告警是上万个的,如何把精确度做准,灵敏度,告警灵敏度没调好,可能运维的同学一会儿又接到告警通知,一会儿又接到告警通知,都麻木了。1分钟告警里面有很多有难度的东西在里面,5是识别根因根因说起简单,用起时很难,因为涉及到自己模块的根因和外部依赖模块的根因。自己的根因可追着效率看,但外部模块如何推着别人走,模块给配合之间如何能够达到快速定位出的能力也是很考验定位根因的能力。第三个是10分钟的恢复能力,10分钟内把要恢复回提升有很多动作要做,在里面核心是用哪个数据,自然可能倒推到对应服务的SLA,以及影响的客户数,这两个数字实时线上都有。实时线上每天都能够看得到值,通过值,可报出的故障和潜在风险的影响,不断的去优化让的可用性做到更好,这是在稳定性的做两块的工作。

2.8 安全提升

安全层面也在提升。首先限制APK下载,诈骗APP使团队积极的拥抱监管。阿里云是第一在公共云上面提出限制四大APP下载的云厂家。放APK相关的后缀的文件,识别出是就禁止下载并阻断应用推广,保护大众的利益。

其次为整合阿里巴巴安全团队AI算法的内容检测的能力,包括对基础图片的机械的检测,头像的图片的检测,AIGC的检测,整个检测都是基于阿里巴巴多年的安全上面的积累做成的,也是把做成一键式使用方式,让客户更好的使用一件配做完就马上享受的功能。

第三个为阻止公共访问bucket默认策略,这么多年经常有收到工单,或求助,当客户某个APP或游戏特别火,遭受攻击后无法正常应用。客户希望提供feature,一键的阻断公共访问,减少整个停机的影响。核心的技术背后在整个访问的路径上面,针对全局的OSS,一配置整个OSS的多个桶,或或配置到单个桶上面,以及单个桶对应的 Endpoint上面,以及现在跟FC配合的Endpoint,有4种类型的访问入口上面进行了Policy和ACL的阻断,一键之后,多层面都可一次生效,让应用快速的止血。

2.9 性价比优化

云上很具有竞争力的点是性价比的优化。对象存储性价比优化主要是两方面,为网络与存储。

在网络传输方面,首先是迭代网络成本模型,提供公共云的服务,网络上首先是定义网络成本的模型,做成本都是要定义模型的,以前是存储的成本模型定义,去年把网络的成本模型重新达到了比较好的版本,基于多租户售卖和底层网络带宽使用构建模型,针对多租户进去,共享物理网络时的成本设计、模型迭代的比较稳定。第二个在模型下面,要去提高复用率,同一根拉的线,如果上下行复用的多,客户分时复用的多,就如白天跑办公类的应用,晚上跑娱乐类的应用,网络利用率就比较高,利用率比较高分摊的每GB的钱就比较高,通过该技术提高客户的调度复用,线路提高利用率,优化成本。第三个跨接入点的调度能力。OSS提供的是域名,不是IP,提供域名即可调度在不同的IP上面去,不同的接入点,访问质量价格上面是有差别的,通过调度的能力(使用调度的原因:在不同地域接触点质量不一,有可能质量出了问题,能快速监控出,切换到另外的点上面去,可把质量不是很好的静态网络做到跟bgp相同的网络可靠性)调度能力是优化成本的关键技术。最后就是提升网络性能,优化参数。如对象存储访问的GDP或https的协议,对于不同的网络质量,里面的参数调节即可优化时延和带宽,在全国建了很多的拨测点会根据自己拨测,根据信息以及客户的反馈调节网络的参数,保证带宽和时延达到更好的状态。

存储方面,主要是通过软硬一体的4个技术点优化性能。第一,要赶上行业的大容量的硬盘,很关键的要抬准行业利用,如16t,20t,24t发布的时间点背后核心是硬件软件要能跟上这块的能力。因为盘容量增大了,但是iops和带宽是没有变的,转换过就单位容量的性能是降低的,要把盘用起是比较考验硬件和软件设计能力的,要及时的规划好台上点的容量。

第二个是存储里面盘的大头过之后,占用的CPU内存网络端口的费用,如何降低费用要涉及大容量。一颗CPU和端口,要拖着盘要尽量的多,每GB分摊的过路费要尽量的少,解决方案为提高机型设计的密度。密度高的核心在于池足够大。第三点,如从3副本改成Erasure Code ,更小的Erasure Code冗余比就能够得到更好的存储空间的利用。第4在云业务里非常关键:优化运维提高数据搬迁的效率。云存储数据是要保存很多年的,截止现在已经是16年了,16年前的数据到现在已经按照服务器三年一波换,已经是到第6波机器的更换,可能是不同的机器在不同的数据中心,不同的AZ都有可能,如何快速的搬迁机器,把不要的机器淘汰掉,有许多中间成本,如何提高搬迁的效率优化成本很关键的一个环节。

介绍了性价比优化的后端技术,结合去年发布了100Gbps的每个地域,每个租户100Gbps 的能力,发布完后性价比有最后一公里。后端100级做之后,等于建了很强的性能仓库,但仍需处理各种事件,访问数据的ECS可能在不同的AZ,要把AZ的高速通路打通,要去修路把路拓宽,才能够让ECS享受到能力,ECS是到处跑的,是可跨AZ 1000的,就跟着ECS去修建公路,公路修之后,有很多在客户端上的事情要不断完善。每个使用OSS客户端软件在2024年这一年都是重点优化的点,都是数倍的性能提升,这是让客户能够快速的在网上下载OSS的工具软件,就能够很好的享受到的每地域100公里的能力,是重点工作。

对象存储通过持续的创新是要构建海量高可靠,高可用,高性价比的产品。在2024年的重点工作为做好一对一的成本模型支撑好100g每租户在每个地域的达成是重点工作,目标希望构建好优质高可高性价比的对象存储产品服务好客户。


分享人:阿里云智能集团资深技术专家罗庆超、阿里云智能集团资深产品专家彭亚雄

作者介绍
目录

相关产品

  • 对象存储