重磅发布 | OpenSearch推出向量检索GPU图算法方案并支持GPU规格售卖

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: OpenSearch向量检索版推出了面向企业开发者的GPU图算法方案(CAGRA算法),支持客户直接购买GPU规格节点,是国内首家支持GPU规格的向量检索产品。

在数据驱动的时代背景下,快速准确地检索大量非结构化数据,对于支持前沿AI应用至关重要。然而,加载向量数据的内存带宽和高吞吐量的需求不断挑战着基于CPU的传统解决方案。为应对挑战,OpenSearch向量检索版在 阿里云上有了新突破。

OpenSearch向量检索版在阿里云上正式推出面向企业开发者的 GPU图算法的方案(CAGRA算法),并支持客户直接购买GPU规格节点,这是国内云上首家支持GPU规格的向量检索产品

GPU能提供大规模并行的处理能力,有效解提升向量检索的性能。企业通过使用这种GPU算法方案,能获得近10倍的向量搜索实际性能提升,非常适合高QPS业务场景。

一、什么是向量检索?

将物理世界产生的非结构化数据(如图片、音视频、对话信息),转化为结构化的多维向量,非结构化数据变成向量的过程称为向量化(Embedding),用这些向量标识实体和实体间的关系,再计算向量之间距离,通常情况下,距离越近、相似度越高,召回相似度最高的TOP结果,完成检索。目前向量检索已经广泛应用以图搜图、同款比价、个性化搜索、语义理解等场景。

1.jpg

二、近似最近邻搜索以及原理

近似最近邻搜索(ANNS)是指在大规模数据集中,寻找与给定查询点近似最近邻的一种高效搜索策略,它是当下最常用的向量检索方式。与精确最近邻搜索相比,ANNS旨在最小化计算成本并同时高效找到近似最近邻,但会牺牲一定的精确度,主要是解决搜索效率和成本问题。

下面是一些常见的ANNS算法及其原理介绍:

  1. 基于树的方法该方法通过多次划分K维空间,检索时仅搜索少数子空间,从而加速检索。优点是实现简单,缺点是在高维向量场景下效果不佳。主要算法包括KD树(将空间划分为多部分,并在特定空间内搜索)和Annoy(采用树型结构存储划分后的子空间,查询时合并各树的候选集并排序)。Annoy的特点是索引小、内存占用低。


  1. 基于哈希的算法:哈希的算法最常见的是LSH(Locality-Sensitive Hashing),它通过将相似度高的数据以较高概率映射到相同的哈希值来降低高维数据的维度,从而提高检索效率。其优点是能高效处理大量高维数据的最近邻搜索问题,但可能牺牲一定的精度。


  1. 基于量化的算法:基于量化的方法主要有SQ和PQ,SQ通过将每个维度的数值转换为较低位数的形式(如从32位INT转为8位INT),以牺牲一定精度来减少存储和计算成本,方法较为直接。PQ则将高维特征空间分解成多个低维子空间,并对每个子空间单独进行量化处理,在训练时通过聚类确定K个中心点形成新的ID向量,从而显著降低向量的存储与运算需求。这两种技术的核心思想都是通过近似表示原始数据来加速检索过程,虽然能有效提升效率但同时也会带来一定的精度损失。


  1. 基于聚类的方法:层次聚类(Hierarchical Clustering,HC)是典型的基于聚类的方法,用于高效近邻检索。它通过比较不同层级的聚类中心点来快速定位目标向量。例如,在两层结构中,首先比较一级中心点,再与该一级中心点下的所有二级中心点对比,最终将向量归入距离最近的二级中心点列表。检索时采用BBF策略,先确定若干最接近的一级中心点,进而锁定相关二级中心点,最后从中线性搜索出最近的K个邻居。此方法的效果依赖于聚类质量,适合中小型数据集以探索其内部层次关系,但在大规模数据上可能面临性能瓶颈。


  1. 基于图的方法:基于图的方法最常用的是HNSW ,几乎所有的向量检索产品都实现了 HNSW,OpenSearch的图算法也是基于HNSW实现的,并在HNSW基础上进行了优化。HNSW通过构建多层小世界图来加速搜索过程,每层可以看作是下一层的简化版,旨在减少距离计算次数类似于跳表。搜索时,从最稀疏的一层开始,逐步向下层推进,直到最底层找到查询点的K个最近邻。这种结构允许快速接近目标区域(高层),并通过更密集的连接(低层)精确定位结果,从而在保证召回率的同时提高效率。与传统的单层图索引不同,HNSW包含多层图,层次越高节点越少,但所有上层节点都会出现在其下的每一层中,最低层则包含了所有数据点。在每一层内,HNSW使用贪心策略进行搜索:总是选择当前最近的邻居作为下一步,如果找不到更近的,则回溯寻找次优路径,直至无法继续为止。构建过程中,每当有新节点加入时,HNSW会先确定其在现有结构中的位置,然后将其链接到最近的几个邻居节点上,以此方式不断扩展整个网络。这种方法确保了即使是在动态更新的情况下也能保持高效且准确的搜索性能。


2.jpg

三、OpenSearch向量检索版GPU图算法方案概述

(一) 为什么要用GPU图算法方案?

GPU,即图形处理器,最初被设计用于实现图形加速,随着其可编程接口的暴露,其强大的并行处理能力使其成为高性能计算的重要组成部分。


OpenSearch GPU图算法通过利用GPU的并行计算能力,可以显著提升计算效率,适用于各种大规模图处理和搜索任务,在社交网络分析、路径规划、社区检测等QPS高、对数据时效性要求高、数据更新频繁的业务场景下,对比传统CPU解决方案具备明显优势

(二) OpenSearch向量检索版GPU图算法方案

1. 方案介绍

OpenSearch向量检索版GPU图算法是基于并行计算硬件的邻近图构建和搜索算法,旨在高效地找到大数据集中的近似最近邻点,在构建邻近图方面优于现有的CPU方法,在大批量和小批量搜索中都展示了更高的吞吐量,同时保持了相当的准确性:

  • 高吞吐量:通过大规模并行处理能力,可以同时处理数千个或者数万个向量的最近邻计算任务,这使得在大规模批量查询时,也能够显著提高计算速度和效率。
  • 高性能图索引构建:通过设计并行算法,能够高效地构建图结构,每个节点的邻近关系计算可以同时在多个线程上进行,减少了全局计算的时间。


阿里云OpenSearch向量检索版已支持以下GPU规格,并计划后续支持更多规格,如您有购买计划,请通过工单联系我们。

  • 4核15G 1*NVIDIA T4 显存1*16 GB GPU型
  • 8核31G 1*NVIDIA T4 显存1*16 GB GPU型
  • 16核62G 1*NVIDIA T4 显存1*16 GB GPU型
  • 24核93G 1*NVIDIA T4 显存1*16 GB GPU型

2. 性能测试:吞吐量

在吞吐量方面,我们采用OpenSearch的GPU方案和CPU上HNSW算法进行比较,使用每秒查询数( QPS )衡量查询执行的吞吐量。测试过程中,我们选择95%、99%、99.5% 3个召回率范围,使用 ANN_GIST1M数据集进行测试,数据集包含100万条960维向量数据。

CPU吞吐量baseline的测试所用机型为16core 64G ecs.g6.4xlarge,所使用的引擎内核为2023.8 VectorStore。

1) GPU算法本身吞吐量

为评估GPU算法本身性能,我们选用3款NVIDIA的高性能GPU( T4、V100、A800)分别进行加速测试。


  • top10 Recall95+% 时

3.jpg

GPU加速测试(top10 95%召回率)

T4

V100

A800

检索性能

batch=1

8倍

10倍

10倍

batch=32

14倍

42倍

53倍


  • Recall99+%时

4.jpg

GPU加速测试(top10 99%召回率)

T4

V100

A800

检索性能

batch=1

10倍

16倍

19倍

batch=32

13倍

30倍

45倍


  • Recall99.5+%时

5.jpg

GPU加速测试(top10 99.5%召回率)

T4

V100

A800

检索性能

batch=1

11倍

26倍

27倍

batch=32

12倍

34倍

46倍


2) OpenSearch中单节点集群吞吐量

将GPU算法集成到OpenSearch系统中后,客户实际使用中将引入包括网络IO、请求处理等多个环节,为评估产品实际性能,我们再次进行OpenSearch中单节点集群吞吐量测试。

在测试中,不同召回率情况下,采用OpenSearch当前提供的T4 GPU规格,发现仍照比同等核数的CPU单节点集群采用HNSW算法能承载的吞吐量有大幅提升:

  • T4 GPU Recall 95% batch=32 QPS=15712(是CPU规格的 9.7 倍)
  • T4 GPU Recall 99% batch=32 QPS=8080(是CPU规格的 9.36 倍)
  • T4 GPU Recall 99.5% batch=32 QPS=5500(是CPU规格的 9.27 倍)

从以上测试结果来看,GPU图算法方案释放了GPU的并行处理能力,在加速后可以获得明显的性能提升,适合于QPS非常高的场景。

3. 性能测试:索引构建

算法层也支持在索引构建时使用GPU资源(目前还未在OpenSearch产品中实际支持),我们选用 ANN_GIST1M数据集测试,结果如下:


索引构建

CPU

T4

V100

A800

索引构建用时

1103s

85s

44s

19s

索引大小

3.8G

2.2G

-

-


通过测试可以看出:GPU在索引构建速度方面明显优于CPU,构建用时仅为CPU机型的 1.72%-7.71%,此外,采用T4机型构建出索引大小仅为原本的58%。

四、结语

通过使用OpenSearch向量检索版提供的GPU规格与GPU图算法,企业与开发者可以获得近10倍的向量搜索性能提升。


当前OpenSearch向量版已经上线GPU规格,对于高QPS业务场景,我们衷心推荐您采用GPU图算法搭建向量检索业务,以获得性能的极大突破并降低成本。


详情了解:OpenSearch向量检索版售卖页

相关文章
|
5天前
|
存储 运维 安全
云上金融量化策略回测方案与最佳实践
2024年11月29日,阿里云在上海举办金融量化策略回测Workshop,汇聚多位行业专家,围绕量化投资的最佳实践、数据隐私安全、量化策略回测方案等议题进行深入探讨。活动特别设计了动手实践环节,帮助参会者亲身体验阿里云产品功能,涵盖EHPC量化回测和Argo Workflows量化回测两大主题,旨在提升量化投研效率与安全性。
云上金融量化策略回测方案与最佳实践
|
7天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
6197 18
|
18天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
11天前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
6天前
|
人工智能 容器
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
本文介绍了如何利用千问开发一款情侣刮刮乐小游戏,通过三步简单指令实现从单个功能到整体框架,再到多端优化的过程,旨在为生活增添乐趣,促进情感交流。在线体验地址已提供,鼓励读者动手尝试,探索编程与AI结合的无限可能。
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
|
1月前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
104578 10
|
11天前
|
Cloud Native Apache 流计算
资料合集|Flink Forward Asia 2024 上海站
Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。
4064 10
资料合集|Flink Forward Asia 2024 上海站
|
4天前
|
弹性计算 运维 监控
阿里云云服务诊断工具:合作伙伴架构师的深度洞察与优化建议
作为阿里云的合作伙伴架构师,我深入体验了其云服务诊断工具,该工具通过实时监控与历史趋势分析,自动化检查并提供详细的诊断报告,极大提升了运维效率和系统稳定性,特别在处理ECS实例资源不可用等问题时表现突出。此外,它支持预防性维护,帮助识别潜在问题,减少业务中断。尽管如此,仍建议增强诊断效能、扩大云产品覆盖范围、提供自定义诊断选项、加强教育与培训资源、集成第三方工具,以进一步提升用户体验。
619 243
|
6天前
|
消息中间件 人工智能 运维
12月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
572 39
|
11天前
|
人工智能 自然语言处理 芯片
上千人挑战,用通义灵码从 0 开始打造一款 App 爆火 | 第二课:搭建本机服务
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。