OSS&Tablestore 向量检索能力全新升级,重塑AI时代数据管理

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
对象存储 OSS,恶意文件检测 1000次 1年
简介: 阿里云 OSS Indexing 发布了向量索引和检索能力。该功能除了可以对 OSS Meta 进行检索之外,还可以对多媒体数据元信息、用户自定义元数据以及向量语义进行检索。OSS Indexing 功能,是依托阿里云表格存储 TableStore 提供的索引存储和检索能力而构建的。表格存储针对成本、规模、召回率等挑战,发布了低成本、大规模、高性能、高召回率的向量检索服务,能以较低成本支持千亿规模数据的存储和检索。

众所周知,优质数据是 AI 大模型持续迭代的核心。根据 IDC 预测 2025 年全球数据量将达到 175ZB,在如此繁杂的数据资源中,如何精准地捕捉数据间的语义关系,提升信息检索的效率,成为了大模型的核心竞争力之一。因此,在 AI 生产链路中,向量检索技术通过推理应用实现数据价值,将不同模态的数据在同一空间中进行表达和检索,在自然语言处理、计算机视觉等应用领域起到了重要作用。

近日,阿里云成功举办了“AI驱动:数据管理的进化与创新 ”线上新品发布会。存储的本质是数据服务,其价值不止于把数据存下来本身,更在于其便捷的采集、精细的管理、高效的流动与使用。

  1. 在数据采集阶段,阿里云运用 OSS 跨区域复制、OSS 传输加速,保障海量非结构化数据高效、安全的传输和统一存储;
  2. 在数据预处理阶段,OSS图片处理、OSS数据索引、EBS弹性临时盘能够提升预处理效率,为训练提供高质量的数据集;
  3. 模型训练和推理阶段,CPFS 高性能并行文件存储,以及此次全新推出的的OSS Connector for AI/ML能够在大规模、容器化部署的生产环境中,提升模型训练的效率,降低数据集加载时间;新版本 OSSFS、OSS 加速器可以在推理阶段,加速中小模型的快速拉取;
  4. 在 AI 应用阶段,阿里云通过OSS 数据索引、OSS 内容安全、Tablestore 向量检索、IMM 智能处理等能力的组合,致力于为客户提供基于现有数据和环境,在云上快速搭建 AI 应用,高效验证业务创新思路的能力。

当前,AI 企业希望面向多模态数据具备开箱即用的数据处理能力,并且一份数据能够对接多种计算引擎和 AI 框架,提升 AI 推理实施的便利性 、将传统的单模态数据处理平滑升级为 AI 多模态数据处理。这要求存储系统的检索能力需要新增向量检索的功能,并且具备开放生态、高性能、低成本等特性。然而,当前多样的向量数据库还存在一些挑战,尤其是在向量检索最核心的成本、规模、召回率三个方面。

阿里云 OSS Indexing 发布了向量索引和检索能力。该功能除了可以对 OSS Meta 进行检索之外,还可以对多媒体数据元信息、用户自定义元数据以及向量语义进行检索。OSS Indexing 功能,是依托阿里云表格存储 TableStore 提供的索引存储和检索能力而构建的。阿里云表格存储是一款 Serverless 分布式结构化数据存储服务,依赖于新能力的升级,Tablestore 支持了 RAG 应用及传统的多模态搜索场景,同时也支持了 OSS indexing 的元数据服务。本次发布会上,表格存储针对上述在向量检索领域遇到的成本、规模、召回率等挑战,发布了低成本、大规模、高性能、高召回率的向量检索服务,能以较低成本支持千亿规模数据的存储和检索。

通过gist 数据集做对照测试得出:相同资源消耗情况下,Tablestore索引构建写入完成时间,比某社区开源向量引擎降低 65%,查询时延约仅为开源引攀的九分之一。同时,更低检索时延(Tablestore 71ms/某开源向量引擎 613ms),内存资源消耗仅为开源向量引擎的十分之一。

除此之外,本次发布会还重磅更新了OSS数据湖的生态接入方式,包括高性能的 OSS Connector for AI/ML、新版本OSSFS等。同时,OSS在数据安全、性能和数据管理上针对 AI 负载进行了进一步优化,当前数据处理和检索能力演进主要聚焦在简单易用、更强的兼容性、低成本、AI serverless等方面,即提供开箱即用的 AI 能力。

此次阿里云表格存储向量检索能力的全新升级,推动了智能推荐、内容检索、RAG 和知识库等应用的广泛普及,重塑了 AI 时代海量数据管理的方式。“面对诸多挑战与机遇,阿里云存储将持续进化创新,在 AI 数据 pipeline 全流程中,为客户提供更丰富多样的数据管理能力。”阿里云智能资深产品专家彭亚雄(崆闻)阐述到。

相关实践学习
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
相关文章
|
14天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
|
9天前
|
人工智能 算法 程序员
程序员如何借势AI提高自己:从高效工作到技能升级的全面指南
【11月更文挑战第4天】程序员可以通过以下几个方面借势 AI 提升自己:1. 日常工作效率提升,包括智能代码编写与补全、自动化测试与调试、项目管理与协作;2. 技能学习与升级,涵盖基础知识学习和深入技术研究;3. 思维拓展与创新能力培养,激发创意灵感和培养批判性思维。
|
30天前
|
SQL 存储 人工智能
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
DataAgent如何助理业务和研发成为业务参谋?如何快速低成本的创建行业数据分类标准?如何管控数据源表的访问权限?如何满足企业安全审计需求?
576 1
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
|
14天前
|
关系型数据库 分布式数据库 数据库
云栖大会|从数据到决策:AI时代数据库如何实现高效数据管理?
在2024云栖大会「海量数据的高效存储与管理」专场,阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在OLTP方向的最新技术进展和行业最佳实践。
|
12天前
|
机器学习/深度学习 人工智能 编解码
全面升级的“新清影”,给AI生成视频带来了哪些新玩法?
智谱清言App近日上线了“新清影”,并开源了最新的图生视频模型CogVideoX v1.5。相比之前的版本,“新清影”在视频分辨率、生成速度、多通道生成能力和模型性能等方面均有显著提升,支持生成10秒、4K、60帧的超高清视频。此外,即将上线的音效功能将进一步提升视频的逼真度和实用性,标志着AI视频创作进入“有声时代”。这些改进使得内容创作变得更加高效和便捷,为创作者提供了更多可能性。
|
15天前
|
存储 人工智能 安全
【通义】AI视界|苹果停止签署iOS 18.0.1,升级用户无法降级
本文由通义自动生成,涵盖24小时内精选的五条科技资讯:奥特曼谈OpenAI未来发展方向,ChatGPT新搜索功能上线遇故障,Perplexity AI选举搜索面临挑战,马斯克谈特斯拉造手机的可能性,以及苹果停止签署iOS 18.0.1。更多精彩内容,欢迎访问通通知道。
|
30天前
|
存储 消息中间件 人工智能
ApsaraMQ Serverless 能力再升级,事件驱动架构赋能 AI 应用
本文整理自2024年云栖大会阿里云智能集团高级技术专家金吉祥的演讲《ApsaraMQ Serverless 能力再升级,事件驱动架构赋能 AI 应用》。
|
3天前
|
存储 人工智能 大数据
面向 AI 的存储基础设施升级
AI 与大数据融合化是大势所趋,企业可以通过大数据技术收集和存储大量数据,进行一站式计算分析和数据治理,以便安全、精确、高效、智能地应用数据。在这个话题中,我们将会介绍阿里云全栈存储数据基础设施如何支撑 AI 场景的创新与实践,并带来全新一代存储产品的重磅发布,帮助企业高效数字创新。
|
1月前
|
存储 人工智能 缓存
AI助理直击要害,从繁复中提炼精华——使用CDN加速访问OSS存储的图片
本案例介绍如何利用AI助理快速实现OSS存储的图片接入CDN,以加速图片访问。通过AI助理提炼关键操作步骤,避免在复杂文档中寻找解决方案。主要步骤包括开通CDN、添加加速域名、配置CNAME等。实测显示,接入CDN后图片加载时间显著缩短,验证了加速效果。此方法大幅提高了操作效率,降低了学习成本。
5435 16
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云百炼大模型:引领企业智能化升级的下一代 AI 驱动引擎
随着人工智能技术的快速发展,大规模预训练模型正在改变各行各业的智能化进程。阿里云百炼大模型(Ba-Lian Large Model)作为阿里云推出的企业级 AI 解决方案,通过深度学习、自然语言处理、计算机视觉等前沿技术,帮助企业实现智能化升级,提升业务效率和创新能力。本文将详细介绍阿里云百炼大模型的核心技术、应用场景及其优势,帮助企业更好地理解和利用这一革命性工具。
201 1

相关产品

  • 对象存储