重磅发布 | OpenSearch推出向量检索GPU图算法方案并支持GPU规格售卖

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: OpenSearch向量检索版推出了面向企业开发者的GPU图算法方案(CAGRA算法),支持客户直接购买GPU规格节点,是国内首家支持GPU规格的向量检索产品。

在数据驱动的时代背景下,快速准确地检索大量非结构化数据,对于支持前沿AI应用至关重要。然而,加载向量数据的内存带宽和高吞吐量的需求不断挑战着基于CPU的传统解决方案。为应对挑战,OpenSearch向量检索版在 阿里云上有了新突破。

OpenSearch向量检索版在阿里云上正式推出面向企业开发者的 GPU图算法的方案(CAGRA算法),并支持客户直接购买GPU规格节点,这是国内云上首家支持GPU规格的向量检索产品

GPU能提供大规模并行的处理能力,有效解提升向量检索的性能。企业通过使用这种GPU算法方案,能获得近10倍的向量搜索实际性能提升,非常适合高QPS业务场景。

一、什么是向量检索?

将物理世界产生的非结构化数据(如图片、音视频、对话信息),转化为结构化的多维向量,非结构化数据变成向量的过程称为向量化(Embedding),用这些向量标识实体和实体间的关系,再计算向量之间距离,通常情况下,距离越近、相似度越高,召回相似度最高的TOP结果,完成检索。目前向量检索已经广泛应用以图搜图、同款比价、个性化搜索、语义理解等场景。

1.jpg

二、近似最近邻搜索以及原理

近似最近邻搜索(ANNS)是指在大规模数据集中,寻找与给定查询点近似最近邻的一种高效搜索策略,它是当下最常用的向量检索方式。与精确最近邻搜索相比,ANNS旨在最小化计算成本并同时高效找到近似最近邻,但会牺牲一定的精确度,主要是解决搜索效率和成本问题。

下面是一些常见的ANNS算法及其原理介绍:

  1. 基于树的方法该方法通过多次划分K维空间,检索时仅搜索少数子空间,从而加速检索。优点是实现简单,缺点是在高维向量场景下效果不佳。主要算法包括KD树(将空间划分为多部分,并在特定空间内搜索)和Annoy(采用树型结构存储划分后的子空间,查询时合并各树的候选集并排序)。Annoy的特点是索引小、内存占用低。


  1. 基于哈希的算法:哈希的算法最常见的是LSH(Locality-Sensitive Hashing),它通过将相似度高的数据以较高概率映射到相同的哈希值来降低高维数据的维度,从而提高检索效率。其优点是能高效处理大量高维数据的最近邻搜索问题,但可能牺牲一定的精度。


  1. 基于量化的算法:基于量化的方法主要有SQ和PQ,SQ通过将每个维度的数值转换为较低位数的形式(如从32位INT转为8位INT),以牺牲一定精度来减少存储和计算成本,方法较为直接。PQ则将高维特征空间分解成多个低维子空间,并对每个子空间单独进行量化处理,在训练时通过聚类确定K个中心点形成新的ID向量,从而显著降低向量的存储与运算需求。这两种技术的核心思想都是通过近似表示原始数据来加速检索过程,虽然能有效提升效率但同时也会带来一定的精度损失。


  1. 基于聚类的方法:层次聚类(Hierarchical Clustering,HC)是典型的基于聚类的方法,用于高效近邻检索。它通过比较不同层级的聚类中心点来快速定位目标向量。例如,在两层结构中,首先比较一级中心点,再与该一级中心点下的所有二级中心点对比,最终将向量归入距离最近的二级中心点列表。检索时采用BBF策略,先确定若干最接近的一级中心点,进而锁定相关二级中心点,最后从中线性搜索出最近的K个邻居。此方法的效果依赖于聚类质量,适合中小型数据集以探索其内部层次关系,但在大规模数据上可能面临性能瓶颈。


  1. 基于图的方法:基于图的方法最常用的是HNSW ,几乎所有的向量检索产品都实现了 HNSW,OpenSearch的图算法也是基于HNSW实现的,并在HNSW基础上进行了优化。HNSW通过构建多层小世界图来加速搜索过程,每层可以看作是下一层的简化版,旨在减少距离计算次数类似于跳表。搜索时,从最稀疏的一层开始,逐步向下层推进,直到最底层找到查询点的K个最近邻。这种结构允许快速接近目标区域(高层),并通过更密集的连接(低层)精确定位结果,从而在保证召回率的同时提高效率。与传统的单层图索引不同,HNSW包含多层图,层次越高节点越少,但所有上层节点都会出现在其下的每一层中,最低层则包含了所有数据点。在每一层内,HNSW使用贪心策略进行搜索:总是选择当前最近的邻居作为下一步,如果找不到更近的,则回溯寻找次优路径,直至无法继续为止。构建过程中,每当有新节点加入时,HNSW会先确定其在现有结构中的位置,然后将其链接到最近的几个邻居节点上,以此方式不断扩展整个网络。这种方法确保了即使是在动态更新的情况下也能保持高效且准确的搜索性能。


2.jpg

三、OpenSearch向量检索版GPU图算法方案概述

(一) 为什么要用GPU图算法方案?

GPU,即图形处理器,最初被设计用于实现图形加速,随着其可编程接口的暴露,其强大的并行处理能力使其成为高性能计算的重要组成部分。


OpenSearch GPU图算法通过利用GPU的并行计算能力,可以显著提升计算效率,适用于各种大规模图处理和搜索任务,在社交网络分析、路径规划、社区检测等QPS高、对数据时效性要求高、数据更新频繁的业务场景下,对比传统CPU解决方案具备明显优势

(二) OpenSearch向量检索版GPU图算法方案

1. 方案介绍

OpenSearch向量检索版GPU图算法是基于并行计算硬件的邻近图构建和搜索算法,旨在高效地找到大数据集中的近似最近邻点,在构建邻近图方面优于现有的CPU方法,在大批量和小批量搜索中都展示了更高的吞吐量,同时保持了相当的准确性:

  • 高吞吐量:通过大规模并行处理能力,可以同时处理数千个或者数万个向量的最近邻计算任务,这使得在大规模批量查询时,也能够显著提高计算速度和效率。
  • 高性能图索引构建:通过设计并行算法,能够高效地构建图结构,每个节点的邻近关系计算可以同时在多个线程上进行,减少了全局计算的时间。


阿里云OpenSearch向量检索版已支持以下GPU规格,并计划后续支持更多规格,如您有购买计划,请通过工单联系我们。

  • 4核15G 1*NVIDIA T4 显存1*16 GB GPU型
  • 8核31G 1*NVIDIA T4 显存1*16 GB GPU型
  • 16核62G 1*NVIDIA T4 显存1*16 GB GPU型
  • 24核93G 1*NVIDIA T4 显存1*16 GB GPU型

2. 性能测试:吞吐量

在吞吐量方面,我们采用OpenSearch的GPU方案和CPU上HNSW算法进行比较,使用每秒查询数( QPS )衡量查询执行的吞吐量。测试过程中,我们选择95%、99%、99.5% 3个召回率范围,使用 ANN_GIST1M数据集进行测试,数据集包含100万条960维向量数据。

CPU吞吐量baseline的测试所用机型为16core 64G ecs.g6.4xlarge,所使用的引擎内核为2023.8 VectorStore。

1) GPU算法本身吞吐量

为评估GPU算法本身性能,我们选用3款NVIDIA的高性能GPU( T4、V100、A800)分别进行加速测试。


  • top10 Recall95+% 时

3.jpg

GPU加速测试(top10 95%召回率)

T4

V100

A800

检索性能

batch=1

8倍

10倍

10倍

batch=32

14倍

42倍

53倍


  • Recall99+%时

4.jpg

GPU加速测试(top10 99%召回率)

T4

V100

A800

检索性能

batch=1

10倍

16倍

19倍

batch=32

13倍

30倍

45倍


  • Recall99.5+%时

5.jpg

GPU加速测试(top10 99.5%召回率)

T4

V100

A800

检索性能

batch=1

11倍

26倍

27倍

batch=32

12倍

34倍

46倍


2) OpenSearch中单节点集群吞吐量

将GPU算法集成到OpenSearch系统中后,客户实际使用中将引入包括网络IO、请求处理等多个环节,为评估产品实际性能,我们再次进行OpenSearch中单节点集群吞吐量测试。

在测试中,不同召回率情况下,采用OpenSearch当前提供的T4 GPU规格,发现仍照比同等核数的CPU单节点集群采用HNSW算法能承载的吞吐量有大幅提升:

  • T4 GPU Recall 95% batch=32 QPS=15712(是CPU规格的 9.7 倍)
  • T4 GPU Recall 99% batch=32 QPS=8080(是CPU规格的 9.36 倍)
  • T4 GPU Recall 99.5% batch=32 QPS=5500(是CPU规格的 9.27 倍)

从以上测试结果来看,GPU图算法方案释放了GPU的并行处理能力,在加速后可以获得明显的性能提升,适合于QPS非常高的场景。

3. 性能测试:索引构建

算法层也支持在索引构建时使用GPU资源(目前还未在OpenSearch产品中实际支持),我们选用 ANN_GIST1M数据集测试,结果如下:


索引构建

CPU

T4

V100

A800

索引构建用时

1103s

85s

44s

19s

索引大小

3.8G

2.2G

-

-


通过测试可以看出:GPU在索引构建速度方面明显优于CPU,构建用时仅为CPU机型的 1.72%-7.71%,此外,采用T4机型构建出索引大小仅为原本的58%。

四、结语

通过使用OpenSearch向量检索版提供的GPU规格与GPU图算法,企业与开发者可以获得近10倍的向量搜索性能提升。


当前OpenSearch向量版已经上线GPU规格,对于高QPS业务场景,我们衷心推荐您采用GPU图算法搭建向量检索业务,以获得性能的极大突破并降低成本。


详情了解:OpenSearch向量检索版售卖页

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
11天前
|
人工智能 文字识别 API
OpenSearch & AI 开放平台,实现0代码图片搜索!
本文主要介绍了如何利用阿里云的 OpenSearch 和 AI 搜索开放平台来构建一个无需编写代码就能完成的图片搜索功能。
61 12
|
7天前
「Mac畅玩鸿蒙与硬件41」UI互动应用篇18 - 多滑块联动控制器
本篇将带你实现一个多滑块联动的控制器应用。用户可以通过拖动多个滑块,动态控制不同参数(如红绿蓝三色值),并实时显示最终结果。我们将以动态颜色调节为例,展示如何结合状态管理和交互逻辑,打造一个高级的滑块控制器应用。
139 78
「Mac畅玩鸿蒙与硬件41」UI互动应用篇18 - 多滑块联动控制器
|
3天前
|
前端开发 中间件 程序员
如何尽可能快地上手一个业务or项目
本文简单讲述作者对于“怎么尽可能快地上手一个新业务/项目?”这个问题的个人理解。
|
2天前
|
大数据 索引 Python
Python判断for循环最后一次
通过本文的介绍,您应该能掌握几种在Python中判断for循环最后一次迭代的方法。根据具体的应用场景和数据结构选择合适的方法,可以提高代码的可读性和运行效率。
89 58
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
《C++ 赋能神经网络:深入解析前向传播与反向传播算法》
本文深入探讨了如何用C++实现神经网络的前向传播和反向传播算法。首先介绍了神经网络的基础概念,包括其结构和工作原理;接着详细解析了前向传播的数据流动过程和反向传播的误差修正机制。文章还讨论了C++实现神经网络的优势与挑战,并展望了其在计算机视觉和自然语言处理等领域的广泛应用前景。
74 40
|
7天前
定时任务启动腾讯云自动发送短信(双数据源)
定时任务启动腾讯云自动发送短信(双数据源)
52 20
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
Llama 3.3:Meta AI 开源新的纯文本语言模型,专注于多语言对话优化
Meta AI推出的Llama 3.3是一款70B参数的纯文本语言模型,支持多语言对话,具备高效、低成本的特点,适用于多种应用场景,如聊天机器人、客户服务自动化、语言翻译等。
51 13
Llama 3.3:Meta AI 开源新的纯文本语言模型,专注于多语言对话优化
|
19小时前
|
敏捷开发 数据可视化 搜索推荐
项目管理看板:项目进度的清晰导航
项目管理看板是一种可视化的任务管理工具,起源于日本丰田公司的精益生产方法。它通过分阶段展示任务状态,帮助团队实时跟踪进展,提高协作效率。看板广泛应用于软件开发、营销、产品开发和客户服务等领域,核心功能包括可视化任务管理、实时跟踪、提高协作、标识阻塞问题和数据分析。未来,看板将更加智能化和集成化,支持更多自定义功能。
|
24天前
|
运维 数据挖掘 网络安全
场景实践 | 基于Flink+Hologres搭建GitHub实时数据分析
基于Flink和Hologres构建的实时数仓方案在数据开发运维体验、成本与收益等方面均表现出色。同时,该产品还具有与其他产品联动组合的可能性,能够为企业提供更全面、更智能的数据处理和分析解决方案。