随着 AI Agent 应用的加速落地,企业数据正从单一类型演变为图片、视频、文档与结构化数据、向量数据相互交织的多模态形态。如何在一套统一的存储底座上高效管理这些海量异构数据,成为企业拥抱 AI 时代的关键挑战。
5月20日,在阿里云云峰会上,对象存储 OSS 正式推出 Table Bucket(表格桶)。这是继对象桶(Object Bucket)、向量桶(Vector Bucket)之后,OSS 面向 AI 时代推出的全新存储桶类型,专为海量结构化数据管理而设计。至此,OSS 形成了对象桶 + 向量桶 + 表格桶的完整产品家族,成为 AI Agent 时代覆盖非结构化数据、向量数据与结构化数据的多模态统一存储底座。
根据介绍,OSS Table Bucket 在 OSS 存储底座之上原生集成 Apache Iceberg 表语义,将对象存储低成本、海量扩展的优势与传统数仓高性能、强事务的能力融为一体。在 500 张表并发写入场景下,数据写入 TPS 可达自建 Iceberg 方案的 10 倍以上,同时内置自动小文件合并、过期快照清理、孤儿文件移除等存储层维护机制,无需占用用户的计算资源,彻底将企业从繁琐的数据湖运维中解放出来。
值得关注的是,OSS Table Bucket 全面兼容 Apache Iceberg REST Catalog API,现有使用 Iceberg 的数据湖作业和分析工具无需任何代码改造,即可直接迁移接入,最大限度保护企业既有技术投资。Spark、Flink、Trino 等主流计算引擎均可直接读写同一份表数据,数据格式基于开放标准,彻底避免厂商锁定。
在流式数据场景下,阿里云云消息队列 Kafka 版已与 OSS Table Bucket 完成深度打通,数据可直接从 Kafka 写入 Table Bucket,无需部署任何外部计算任务,依托 Exactly-once 语义保障数据零丢失、零重复,大幅简化实时数据入湖的架构复杂度和运维成本。
Table Bucket 的发布,也让 OSS 三桶协同的一体化能力得以完整呈现。以 AI 训练场景为例,海量原始图片、视频存放于对象桶,Embedding 向量索引构建于向量桶,训练样本的标注信息与版本元数据由 Table Bucket 统一管理,三者共享同一套账号、权限、计费与审计体系,一份数据无需跨服务搬运,即可覆盖存储、检索、分析的全链路需求,为 AI Agent 的高效运转提供坚实的数据底座支撑。
据了解,OSS 向量桶自发布以来已吸引大量 AI 原生企业接入,覆盖智能检索、RAG 知识库、AIGC 数字资产管理等典型场景。某大型游戏公司基于 OSS 向量桶,将亿级 AIGC 素材的语义检索效率提升 10 倍,运营成本降低 90%。
Table Bucket 的加入,进一步补齐了结构化数据管理的能力拼图,让 OSS 的多模态数据底座更加完整。目前,OSS Table Bucket 已在中国、新加坡、法兰克福三个地域开启内测,企业用户可点击「阅读原文」了解产品详情并申请内测资格。
未来,阿里云 OSS 还将持续引入面向 AI 应用的新一代湖格式 Lance,提供原生多模态表格存储与混合检索能力,不断夯实 OSS 在 AI 原生数据存储管理领域的技术领先优势,助力企业在 AI Agent 时代实现数据资产的高效管理与价值挖掘。