随着 AI Agent 从“感知”向“认知”跨越,数据不仅是企业存储的资产,更是驱动智能决策的源泉。如何在海量非结构化数据中快速进行语义理解与精准召回,已成为企业构建 AI 应用、挖掘数据价值的核心挑战。
近日,在阿里云峰会上,对象存储 OSS 正式宣布向量 Bucket 即将于 6 月 10 日由公测转为正式 GA 。自去年 9 月份云栖大会邀测发布以来,OSS 向量 Bucket 已经陆续在亚太、欧洲、北美等全球 12 个地域全面开服, 并在 AIGC 数字资产管理、AI 数据集管理、AI Agent 等场景中服务成百上千客户。同时,随着 Table Bucket(表格桶)的加入,OSS 现已全面构建起“对象 + 向量 + 表格”的完整产品家族。至此,OSS 正式进化为 AI Agent 时代首个原生覆盖非结构化内容(Object)、高维语义索引(Vector)与海量结构化元数据(Table)的多模态统一存储底座,助力企业在万亿级数据的汪洋大海中,秒级捕捉智能的火花。
根据介绍,向量 Bucket 是阿里云对象存储 OSS 提供的一种专门用于存储、查询和管理向量数据的 Bucket 类型。具有低成本、万亿级大规模和简单易用的特点,面向各类多模态语义检索、RAG 知识库、AI Agent 等 AI 场景提供向量存储和向量查询的能力。
向量 Bucket 支持写入任意向量模型所产生的向量数据,还可以将向量数据所携带的标量元数据通过 PutVectors 接口一同写入到向量 Bucket 中。用户无需关心底层的集群构建、索引构建、节点扩缩容等问题,真正做到零运维。同时,Serverless 化的产品设计,使得整体的成本较传统向量数据的存储方式降低 95%,解决企业在 AI 时代下因为向量数据快速增长而带来的成本顾虑。
同时,单张索引表 20 亿行的规模上限,轻松承载单地域万亿行向量规模,满足企业在 Agent 时代下高速增长的向量存储和检索需求。更重要的是,通过 OSS 统一的企业级能力,可以轻松在 OSS 中高效管理非结构化数据与向量数据,如将对象 Bucket 与向量 Bucket 配置相同的 Bucket Policy,或通过统一格式导出日志以便审计,解决企业在 AI 时代对安全合规的严苛要求。
据了解,OSS 向量 Bucket 自发布以来已吸引大量 AI 原生企业接入,覆盖智能检索、RAG 知识库、AIGC 数字资产管理等典型场景。其中一个典型案例来自游戏行业,客户基于 OSS 向量 Bucket 和阿里云百炼向量模型,对公司内部万亿规模的 AIGC 数字资产进行向量化,并将其统一存储在 OSS 向量 Bucket 中。
这些 AIGC 原始素材包括游戏角色、场景分镜图、动画视频等多媒体数据。以往传统的检索难以匹配视觉特征,且 AIGC 素材规模的高速增长导致其高额成本与合规风险。客户使用 OSS 向量 Bucket 之后,AIGC 内容库的运营成本降低近 90%,且向量 Bucket 提供的检索效率和准确度得到设计师团队一致好评。更重要的是,客户将向量数据和包含 AIGC 标识的标量元数据同时写入向量 Bucket,并利用 OSS 统一的企业级数据管理能力,轻松达到项目组级别的权限隔离和 AIGC 素材一键审计,解决了规模化增长的后顾之忧。
向量 Bucket 的全面 GA,是 OSS 产品家族的一次重大升级。同时,Table Bucket 的全新发布,也标志着 OSS 多模态数据统一底座的全面成型。目前,OSS 向量 Bucket 计划在 6 月 10 日全面商业化 GA,您可以「点击这里」了解产品详情。