OSS&Tablestore 向量检索能力全新升级,重塑AI时代数据管理

本文涉及的产品
对象存储 OSS,标准 - 本地冗余存储 20GB 3个月
对象存储 OSS,标准 - 同城冗余存储 20GB 3个月
文件存储 NAS,50GB 3个月
简介: 阿里云 OSS Indexing 发布了向量索引和检索能力。该功能除了可以对 OSS Meta 进行检索之外,还可以对多媒体数据元信息、用户自定义元数据以及向量语义进行检索。OSS Indexing 功能,是依托阿里云表格存储 TableStore 提供的索引存储和检索能力而构建的。表格存储针对成本、规模、召回率等挑战,发布了低成本、大规模、高性能、高召回率的向量检索服务,能以较低成本支持千亿规模数据的存储和检索。

众所周知,优质数据是 AI 大模型持续迭代的核心。根据 IDC 预测 2025 年全球数据量将达到 175ZB,在如此繁杂的数据资源中,如何精准地捕捉数据间的语义关系,提升信息检索的效率,成为了大模型的核心竞争力之一。因此,在 AI 生产链路中,向量检索技术通过推理应用实现数据价值,将不同模态的数据在同一空间中进行表达和检索,在自然语言处理、计算机视觉等应用领域起到了重要作用。

近日,阿里云成功举办了“AI驱动:数据管理的进化与创新 ”线上新品发布会。存储的本质是数据服务,其价值不止于把数据存下来本身,更在于其便捷的采集、精细的管理、高效的流动与使用。

  1. 在数据采集阶段,阿里云运用 OSS 跨区域复制、OSS 传输加速,保障海量非结构化数据高效、安全的传输和统一存储;
  2. 在数据预处理阶段,OSS图片处理、OSS数据索引、EBS弹性临时盘能够提升预处理效率,为训练提供高质量的数据集;
  3. 模型训练和推理阶段,CPFS 高性能并行文件存储,以及此次全新推出的的OSS Connector for AI/ML能够在大规模、容器化部署的生产环境中,提升模型训练的效率,降低数据集加载时间;新版本 OSSFS、OSS 加速器可以在推理阶段,加速中小模型的快速拉取;
  4. 在 AI 应用阶段,阿里云通过OSS 数据索引、OSS 内容安全、Tablestore 向量检索、IMM 智能处理等能力的组合,致力于为客户提供基于现有数据和环境,在云上快速搭建 AI 应用,高效验证业务创新思路的能力。

当前,AI 企业希望面向多模态数据具备开箱即用的数据处理能力,并且一份数据能够对接多种计算引擎和 AI 框架,提升 AI 推理实施的便利性 、将传统的单模态数据处理平滑升级为 AI 多模态数据处理。这要求存储系统的检索能力需要新增向量检索的功能,并且具备开放生态、高性能、低成本等特性。然而,当前多样的向量数据库还存在一些挑战,尤其是在向量检索最核心的成本、规模、召回率三个方面。

阿里云 OSS Indexing 发布了向量索引和检索能力。该功能除了可以对 OSS Meta 进行检索之外,还可以对多媒体数据元信息、用户自定义元数据以及向量语义进行检索。OSS Indexing 功能,是依托阿里云表格存储 TableStore 提供的索引存储和检索能力而构建的。阿里云表格存储是一款 Serverless 分布式结构化数据存储服务,依赖于新能力的升级,Tablestore 支持了 RAG 应用及传统的多模态搜索场景,同时也支持了 OSS indexing 的元数据服务。本次发布会上,表格存储针对上述在向量检索领域遇到的成本、规模、召回率等挑战,发布了低成本、大规模、高性能、高召回率的向量检索服务,能以较低成本支持千亿规模数据的存储和检索。

通过gist 数据集做对照测试得出:相同资源消耗情况下,Tablestore索引构建写入完成时间,比某社区开源向量引擎降低 65%,查询时延约仅为开源引攀的九分之一。同时,更低检索时延(Tablestore 71ms/某开源向量引擎 613ms),内存资源消耗仅为开源向量引擎的十分之一。

除此之外,本次发布会还重磅更新了OSS数据湖的生态接入方式,包括高性能的 OSS Connector for AI/ML、新版本OSSFS等。同时,OSS在数据安全、性能和数据管理上针对 AI 负载进行了进一步优化,当前数据处理和检索能力演进主要聚焦在简单易用、更强的兼容性、低成本、AI serverless等方面,即提供开箱即用的 AI 能力。

此次阿里云表格存储向量检索能力的全新升级,推动了智能推荐、内容检索、RAG 和知识库等应用的广泛普及,重塑了 AI 时代海量数据管理的方式。“面对诸多挑战与机遇,阿里云存储将持续进化创新,在 AI 数据 pipeline 全流程中,为客户提供更丰富多样的数据管理能力。”阿里云智能资深产品专家彭亚雄(崆闻)阐述到。

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
相关文章
|
3月前
|
存储 人工智能 NoSQL
阿里云表格存储 Tablestore 全面升级 AI 能力,存储成本直降 30%
近日,阿里云表格存储 Tablestore 宣布全面升级 AI 场景支持能力,正式推出 AI Agent 记忆存储功能,在保障高性能与高可用的同时,整体存储成本降低 30%,标志着 Tablestore 在构建 AI 数据处理和存储的技术内核能力上,迈出关键一步。
448 133
|
6月前
|
存储 人工智能 Kubernetes
AI 场景深度优化!K8s 集群 OSSFS 2.0 存储卷全面升级,高效访问 OSS 数据
阿里云对象存储OSS是一款海量、安全、低成本、高可靠的云存储服务,是用户在云上存储的高性价比选择…
|
3月前
|
存储 人工智能 NoSQL
阿里云表格存储 Tablestore 全面升级 AI 能力,存储成本直降 30%
让 AI 记得久、找得快、用得上,表格存储加速智能体记忆进化。
|
6月前
|
存储 人工智能 测试技术
AI 场景深度优化!K8s 集群 OSSFS 2.0 存储卷全面升级,高效访问 OSS 数据
OSSFS 2.0通过轻量化协议设计、协程化技术及FUSE3低级API重构,实现大文件顺序读写与小文件高并发加载的显著提升,在实际测试中表现出高达数十倍的吞吐量增长。适用于机器学习训练、推理等对高带宽低延迟要求严苛的场景,同时支持静态和动态挂载方式,方便用户在ACK集群中部署使用。
696 34
|
存储 人工智能 开发工具
AI助理化繁为简,速取代码参数——使用python SDK 处理OSS存储的图片
只需要通过向AI助理提问的方式输入您的需求,即可瞬间获得核心流程代码及参数,缩短学习路径、提升开发效率。
1723 5
AI助理化繁为简,速取代码参数——使用python SDK 处理OSS存储的图片
|
11月前
|
弹性计算 人工智能 数据管理
AI场景下的对象存储OSS数据管理实践
本文介绍了ECS和OSS的操作流程,分为两大部分。第一部分详细讲解了ECS的登录、密码重置、安全组设置及OSSUTIL工具的安装与配置,通过实验创建并管理存储桶,上传下载文件,确保资源及时释放。第二部分则聚焦于OSSFS工具的应用,演示如何将对象存储挂载为磁盘,进行大文件加载与模型训练,强调环境搭建(如Conda环境)及依赖安装步骤,确保实验结束后正确清理AccessKey和相关资源。整个过程注重操作细节与安全性,帮助用户高效利用云资源完成实验任务。
992 161
|
8月前
|
关系型数据库 数据库 对象存储
Dify实践|Dify on DMS+对象存储OSS,实现多副本部署方案
本文介绍了在DMS上部署Dify的详细步骤,用户可选择一键购买资源或基于现有资源部署Dify,需配置RDS PostgreSQL、Redis、AnalyticDB for PostgreSQL等实例,并设置存储路径和资源规格。文中还提供了具体配置参数说明及操作截图,帮助用户顺利完成部署。
|
10月前
|
存储 人工智能 NoSQL
Tablestore深度解析:面向AI场景的结构化数据存储最佳实践
《Tablestore深度解析:面向AI场景的结构化数据存储最佳实践》由阿里云专家团队分享,涵盖Tablestore十年发展历程、AI时代多模态数据存储需求、VCU模式优化、向量检索发布及客户最佳实践等内容。Tablestore支持大规模在线数据存储,提供高性价比、高性能和高可用性,特别针对AI场景进行优化,满足结构化与非结构化数据的统一存储和高效检索需求。通过多元化索引和Serverless弹性VCU模式,助力企业实现低成本、灵活扩展的数据管理方案。
563 12
|
9月前
|
人工智能 数据管理 数据库
Data+AI用户体验升级,阿里云「DMS+UX」焕醒数智一体化新体验
Data+AI用户体验升级,阿里云「DMS+UX」焕醒数智一体化新体验
288 0
|
9月前
|
存储 人工智能 Cloud Native
阿里云向量检索 Milvus 版开启公测,助力企业打造高质量 AI 服务
阿里云向量检索 Milvus 版开启公测,助力企业打造高质量 AI 服务
129 0

热门文章

最新文章

相关产品

  • 对象存储