重磅发布 | OpenSearch推出向量检索GPU图算法方案并支持GPU规格售卖

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: OpenSearch向量检索版推出了面向企业开发者的GPU图算法方案(CAGRA算法),支持客户直接购买GPU规格节点,是国内首家支持GPU规格的向量检索产品。

在数据驱动的时代背景下,快速准确地检索大量非结构化数据,对于支持前沿AI应用至关重要。然而,加载向量数据的内存带宽和高吞吐量的需求不断挑战着基于CPU的传统解决方案。为应对挑战,OpenSearch向量检索版在 阿里云上有了新突破。

OpenSearch向量检索版在阿里云上正式推出面向企业开发者的 GPU图算法的方案(CAGRA算法),并支持客户直接购买GPU规格节点,这是国内云上首家支持GPU规格的向量检索产品

GPU能提供大规模并行的处理能力,有效解提升向量检索的性能。企业通过使用这种GPU算法方案,能获得近10倍的向量搜索实际性能提升,非常适合高QPS业务场景。

一、什么是向量检索?

将物理世界产生的非结构化数据(如图片、音视频、对话信息),转化为结构化的多维向量,非结构化数据变成向量的过程称为向量化(Embedding),用这些向量标识实体和实体间的关系,再计算向量之间距离,通常情况下,距离越近、相似度越高,召回相似度最高的TOP结果,完成检索。目前向量检索已经广泛应用以图搜图、同款比价、个性化搜索、语义理解等场景。

1.jpg

二、近似最近邻搜索以及原理

近似最近邻搜索(ANNS)是指在大规模数据集中,寻找与给定查询点近似最近邻的一种高效搜索策略,它是当下最常用的向量检索方式。与精确最近邻搜索相比,ANNS旨在最小化计算成本并同时高效找到近似最近邻,但会牺牲一定的精确度,主要是解决搜索效率和成本问题。

下面是一些常见的ANNS算法及其原理介绍:

  1. 基于树的方法该方法通过多次划分K维空间,检索时仅搜索少数子空间,从而加速检索。优点是实现简单,缺点是在高维向量场景下效果不佳。主要算法包括KD树(将空间划分为多部分,并在特定空间内搜索)和Annoy(采用树型结构存储划分后的子空间,查询时合并各树的候选集并排序)。Annoy的特点是索引小、内存占用低。


  1. 基于哈希的算法:哈希的算法最常见的是LSH(Locality-Sensitive Hashing),它通过将相似度高的数据以较高概率映射到相同的哈希值来降低高维数据的维度,从而提高检索效率。其优点是能高效处理大量高维数据的最近邻搜索问题,但可能牺牲一定的精度。


  1. 基于量化的算法:基于量化的方法主要有SQ和PQ,SQ通过将每个维度的数值转换为较低位数的形式(如从32位INT转为8位INT),以牺牲一定精度来减少存储和计算成本,方法较为直接。PQ则将高维特征空间分解成多个低维子空间,并对每个子空间单独进行量化处理,在训练时通过聚类确定K个中心点形成新的ID向量,从而显著降低向量的存储与运算需求。这两种技术的核心思想都是通过近似表示原始数据来加速检索过程,虽然能有效提升效率但同时也会带来一定的精度损失。


  1. 基于聚类的方法:层次聚类(Hierarchical Clustering,HC)是典型的基于聚类的方法,用于高效近邻检索。它通过比较不同层级的聚类中心点来快速定位目标向量。例如,在两层结构中,首先比较一级中心点,再与该一级中心点下的所有二级中心点对比,最终将向量归入距离最近的二级中心点列表。检索时采用BBF策略,先确定若干最接近的一级中心点,进而锁定相关二级中心点,最后从中线性搜索出最近的K个邻居。此方法的效果依赖于聚类质量,适合中小型数据集以探索其内部层次关系,但在大规模数据上可能面临性能瓶颈。


  1. 基于图的方法:基于图的方法最常用的是HNSW ,几乎所有的向量检索产品都实现了 HNSW,OpenSearch的图算法也是基于HNSW实现的,并在HNSW基础上进行了优化。HNSW通过构建多层小世界图来加速搜索过程,每层可以看作是下一层的简化版,旨在减少距离计算次数类似于跳表。搜索时,从最稀疏的一层开始,逐步向下层推进,直到最底层找到查询点的K个最近邻。这种结构允许快速接近目标区域(高层),并通过更密集的连接(低层)精确定位结果,从而在保证召回率的同时提高效率。与传统的单层图索引不同,HNSW包含多层图,层次越高节点越少,但所有上层节点都会出现在其下的每一层中,最低层则包含了所有数据点。在每一层内,HNSW使用贪心策略进行搜索:总是选择当前最近的邻居作为下一步,如果找不到更近的,则回溯寻找次优路径,直至无法继续为止。构建过程中,每当有新节点加入时,HNSW会先确定其在现有结构中的位置,然后将其链接到最近的几个邻居节点上,以此方式不断扩展整个网络。这种方法确保了即使是在动态更新的情况下也能保持高效且准确的搜索性能。


2.jpg

三、OpenSearch向量检索版GPU图算法方案概述

(一) 为什么要用GPU图算法方案?

GPU,即图形处理器,最初被设计用于实现图形加速,随着其可编程接口的暴露,其强大的并行处理能力使其成为高性能计算的重要组成部分。


OpenSearch GPU图算法通过利用GPU的并行计算能力,可以显著提升计算效率,适用于各种大规模图处理和搜索任务,在社交网络分析、路径规划、社区检测等QPS高、对数据时效性要求高、数据更新频繁的业务场景下,对比传统CPU解决方案具备明显优势

(二) OpenSearch向量检索版GPU图算法方案

1. 方案介绍

OpenSearch向量检索版GPU图算法是基于并行计算硬件的邻近图构建和搜索算法,旨在高效地找到大数据集中的近似最近邻点,在构建邻近图方面优于现有的CPU方法,在大批量和小批量搜索中都展示了更高的吞吐量,同时保持了相当的准确性:

  • 高吞吐量:通过大规模并行处理能力,可以同时处理数千个或者数万个向量的最近邻计算任务,这使得在大规模批量查询时,也能够显著提高计算速度和效率。
  • 高性能图索引构建:通过设计并行算法,能够高效地构建图结构,每个节点的邻近关系计算可以同时在多个线程上进行,减少了全局计算的时间。


阿里云OpenSearch向量检索版已支持以下GPU规格,并计划后续支持更多规格,如您有购买计划,请通过工单联系我们。

  • 4核15G 1*NVIDIA T4 显存1*16 GB GPU型
  • 8核31G 1*NVIDIA T4 显存1*16 GB GPU型
  • 16核62G 1*NVIDIA T4 显存1*16 GB GPU型
  • 24核93G 1*NVIDIA T4 显存1*16 GB GPU型

2. 性能测试:吞吐量

在吞吐量方面,我们采用OpenSearch的GPU方案和CPU上HNSW算法进行比较,使用每秒查询数( QPS )衡量查询执行的吞吐量。测试过程中,我们选择95%、99%、99.5% 3个召回率范围,使用 ANN_GIST1M数据集进行测试,数据集包含100万条960维向量数据。

CPU吞吐量baseline的测试所用机型为16core 64G ecs.g6.4xlarge,所使用的引擎内核为2023.8 VectorStore。

1) GPU算法本身吞吐量

为评估GPU算法本身性能,我们选用3款NVIDIA的高性能GPU( T4、V100、A800)分别进行加速测试。


  • top10 Recall95+% 时

3.jpg

GPU加速测试(top10 95%召回率)

T4

V100

A800

检索性能

batch=1

8倍

10倍

10倍

batch=32

14倍

42倍

53倍


  • Recall99+%时

4.jpg

GPU加速测试(top10 99%召回率)

T4

V100

A800

检索性能

batch=1

10倍

16倍

19倍

batch=32

13倍

30倍

45倍


  • Recall99.5+%时

5.jpg

GPU加速测试(top10 99.5%召回率)

T4

V100

A800

检索性能

batch=1

11倍

26倍

27倍

batch=32

12倍

34倍

46倍


2) OpenSearch中单节点集群吞吐量

将GPU算法集成到OpenSearch系统中后,客户实际使用中将引入包括网络IO、请求处理等多个环节,为评估产品实际性能,我们再次进行OpenSearch中单节点集群吞吐量测试。

在测试中,不同召回率情况下,采用OpenSearch当前提供的T4 GPU规格,发现仍照比同等核数的CPU单节点集群采用HNSW算法能承载的吞吐量有大幅提升:

  • T4 GPU Recall 95% batch=32 QPS=15712(是CPU规格的 9.7 倍)
  • T4 GPU Recall 99% batch=32 QPS=8080(是CPU规格的 9.36 倍)
  • T4 GPU Recall 99.5% batch=32 QPS=5500(是CPU规格的 9.27 倍)

从以上测试结果来看,GPU图算法方案释放了GPU的并行处理能力,在加速后可以获得明显的性能提升,适合于QPS非常高的场景。

3. 性能测试:索引构建

算法层也支持在索引构建时使用GPU资源(目前还未在OpenSearch产品中实际支持),我们选用 ANN_GIST1M数据集测试,结果如下:


索引构建

CPU

T4

V100

A800

索引构建用时

1103s

85s

44s

19s

索引大小

3.8G

2.2G

-

-


通过测试可以看出:GPU在索引构建速度方面明显优于CPU,构建用时仅为CPU机型的 1.72%-7.71%,此外,采用T4机型构建出索引大小仅为原本的58%。

四、结语

通过使用OpenSearch向量检索版提供的GPU规格与GPU图算法,企业与开发者可以获得近10倍的向量搜索性能提升。


当前OpenSearch向量版已经上线GPU规格,对于高QPS业务场景,我们衷心推荐您采用GPU图算法搭建向量检索业务,以获得性能的极大突破并降低成本。


详情了解:OpenSearch向量检索版售卖页

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
8月前
|
人工智能 缓存 调度
技术改变AI发展:RDMA能优化吗?GDR性能提升方案(GPU底层技术系列二)
随着人工智能(AI)的迅速发展,越来越多的应用需要巨大的GPU计算资源。GPUDirect RDMA 是 Kepler 级 GPU 和 CUDA 5.0 中引入的一项技术,可以让使用pcie标准的gpu和第三方设备进行直接的数据交换,而不涉及CPU。
136401 6
|
8月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU云服务器有哪些方案
阿里云GPU云服务器有哪些方案
|
并行计算 固态存储 Ubuntu
基因组大数据计算: CPU和GPU加速方案深度评测
基因组大数据计算: CPU和GPU加速方案深度评测
320 0
基因组大数据计算: CPU和GPU加速方案深度评测
|
8月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云林立翔:基于阿里云GPU的AIGC小规模训练优化方案
阿里云弹性计算林立翔在【AIGC】话题下带来了题为《基于阿里云GPU的AIGC小规模训练优化方案》的主题演讲,围绕生成式AI技术栈、生成式AI微调训练和性能分析、ECS GPU实例为生成式AI提供算力保障、应用场景案例等相关话题展开。
|
自然语言处理 算法 数据库
OpenSearch向量检索和大模型方案深度解读
深度解读开放搜索在向量检索和大模型方面的升级演进。
81457 7
|
机器学习/深度学习 数据可视化 虚拟化
阿里云GPU云服务器实例规格及活动价格整理
阿里云GPU云服务器是一种适用于深度学习、科学计算、图形可视化、视频处理多种应用场景的具有超强的GPU算力的云服务器产品,2023年阿里云官方对GPU云服务器提供了首购4折起等众多优惠政策,小编来说说详细的优惠政策及最新活动报价表。
622 0
阿里云GPU云服务器实例规格及活动价格整理
|
存储 数据采集 人工智能
重磅再推 | 基于OpenSearch向量检索版+大模型,搭建对话式搜索
阿里云OpenSearch再推面向企业开发者的PaaS方案:基于OpenSearch向量检索版,为企业开发者提供性能表现优秀、性价比优异的向量检索服务,并提供与大模型结合脚本工具,用户可在使用能力可靠的向量检索服务的同时,自由选择文档切片方案、向量化模型、大语言模型。
16009 1
重磅再推 | 基于OpenSearch向量检索版+大模型,搭建对话式搜索
|
机器学习/深度学习 存储 算法
PyTorch 中的多 GPU 训练和梯度累积作为替代方案
PyTorch 中的多 GPU 训练和梯度累积作为替代方案
192 0
|
算法 PyTorch 算法框架/工具
绕开算力限制,如何用单GPU微调 LLM?这是一份「梯度累积」算法教程(2)
绕开算力限制,如何用单GPU微调 LLM?这是一份「梯度累积」算法教程
270 0
|
算法 PyTorch 算法框架/工具
绕开算力限制,如何用单GPU微调 LLM?这是一份「梯度累积」算法教程
绕开算力限制,如何用单GPU微调 LLM?这是一份「梯度累积」算法教程
212 0

相关产品

  • 智能开放搜索 OpenSearch