如何在向量空间中进行近邻检索?

简介: 本文介绍如何在向量空间中进行近邻检索。通过向量空间模型,将文档表示为高维向量,利用TF-IDF赋权,相似度转化为向量间距离计算,常用余弦距离。面对高维场景,k-d树效率下降,故采用近似最近邻(ANN)实现高效非精准Top K检索,提升搜索性能。

既然是要讨论相似文章的检索,那我们就得知道,一篇文章是怎么用计算机能理解的形式表示出来的,以及怎么计算两篇文章的相似性。最常见的方式就是使用 向量空间模型(Vector Space Model)。所谓向量空间模型,就是将所有文档中出现过的所有关键词都提取出来。如果一共有 n 个关键词,那每个关键词就是一个维度,这就组成了一个 n 维的向量空间。

那一篇文档具体该如何表示呢?我们可以假设,一篇文章中有 k(0。这样一来,每一个文档就都是 n 维向量空间中的一个点。

那接下来,计算两个文章相似度就变成了计算两个向量的相似度。计算向量相似度实际上就是计算两个向量的距离,距离越小,它们就越相似。具体在计算的时候,我们可以使用很多种距离度量方式。比如说,我们可以采用余弦距离,或者采用欧式距离等。一般来说,我们会采用余弦距离来计算向量相似度。

拓展到搜索引擎和推荐引擎中,因为每个文档都是 n 维向量中的一个点,所以查询相似文章的问题,就变成了在 n 维空间中,查询离一个点距离最近的 k 个点的问题。如果把这些「点」想象成「人」,这不就和我们在二维空间中查询附近的人的问题非常类似了吗?这就给了我们一个启发,我们是不是也能用类似的检索技术来解决它呢?下面,我们一起来看一下。

首先,在十几维量级的低维空间中,我们可以使用 k-d 树进行 k 维空间的近邻检索,它的性能还是不错的。但随着维度的增加, 如果我们还要精准找到最邻近的 k 个点,k-d 需要不停递归来探索邻接区域,检索效率就会急剧下降,甚至接近于遍历代价。当关键词是几万乃至百万级别时,文档的向量空间可能是一个上万维甚至是百万维的超高维空间,使用 k-d 树就更难以完成检索工作了。因此,我们需要寻找更简单、高效的方案。

这个时候,使用非精准 Top K 检索代替精准 Top K 检索的方案就又可以派上用场了。这是为什么呢?因为高维空间本身就很抽象,在用向量空间中的一个点表示一个对象的过程中,如果我们选择了不同的权重计算方式,那得到的向量就会不同,所以这种表示方法本身就已经损失了一定的精确性。

因此,对于高维空间的近邻检索问题,我们可以使用 近似最近邻检索(Approximate Nearest Neighbor)来实现。你可以先想一想查询附近的人是怎么实现的,然后再和我一起来看高维空间的近似最近邻检索是怎么做的。

相关文章
|
2月前
|
机器学习/深度学习 监控 算法
PPO与DPO:大模型对齐的两大核心算法,差异与选型全解析
本文深度解析大模型对齐核心算法PPO与DPO:PPO基于RLHF框架,需训练奖励模型,对齐精准、稳定性强,但流程繁琐、资源消耗大;DPO跳过奖励建模,直接优化偏好,轻量高效、易上手。对比原理、流程、优劣及适用场景,助你科学选型,提升对齐效率。
|
3月前
|
机器学习/深度学习 人工智能 算法
大模型微调新篇章:从“学会知识”到“理解偏好”,PPO算法全解析与实践指南
本文深入解析大模型对齐人类偏好的核心技术——近端策略优化(PPO)。从原理到实践,详解PPO如何通过Actor、Reference、Reward与Critic四模型协作,结合强化学习实现更自然、安全、有用的对话。涵盖训练流程、常见问题、评估方法及进阶技巧,并以LLaMA-Factory为例演示操作,助力开发者快速上手,打造更“懂你”的AI助手。
671 3
|
1月前
|
机器学习/深度学习 人工智能 监控
阿里除夕开源千问3.5:3970亿参数但只激活170亿,大模型部署成本砍半怎么做到的?
本文探讨 AI 落地深水区的成本与效率难题,解析阿里 Qwen3.5 通过混合注意力、稀疏 MoE 等技术实现性能跃升与降本增效,并对比 Prompt、RAG 与微调的适用场景,指出企业应结合模型特性规划技术路线,借助平台实现 AI 从能用向好用进阶。
1763 5
|
9月前
|
人工智能 运维 安全
系统化解析超智融合算力中心的搭建路径 | 干货推荐
联科集团加入龙蜥社区多年,一直与龙蜥保持深度合作,其超智融合算力管理平台 CHESS 与 Anolis OS 的完成了兼容适配认证。
|
存储 关系型数据库 索引
什么是聚簇索引及其优缺点?
聚簇索引并不是单独的索引类型,而是一种数据存储方式。 B+树索引分为聚簇索引和非聚簇索引,主键索引就是聚簇索引的一种,非聚簇索引有复合索引、前缀索引、唯一索引。 在innodb存储引擎中,表数据本身就是按B+树组织的一个索引结构,聚簇索引就是按照每张表的主键构造一颗B+树,同时叶子节点中存放的就是整张表的行记录数据,也将聚簇索引的叶子节点成为数据页。 Innodb通过主键聚集数据,如果没有定义主键,innodb会选择非空的唯一索引代替。如果没有这样的索引,innodb会隐式的定义一个主键来作为聚簇索引。 非聚簇索引又称为辅助索引,InnoDB访问数据需要两次查找,辅助索引叶子节点存储的不再是行
|
算法 Linux
深入探索Linux内核的内存管理机制
本文旨在为读者提供对Linux操作系统内核中内存管理机制的深入理解。通过探讨Linux内核如何高效地分配、回收和优化内存资源,我们揭示了这一复杂系统背后的原理及其对系统性能的影响。不同于常规的摘要,本文将直接进入主题,不包含背景信息或研究目的等标准部分,而是专注于技术细节和实际操作。
443 35
|
7月前
|
存储 弹性计算 固态存储
阿里云服务器云盘解析:ESSD AutoPL、ESSD云盘、PL-X等云盘性能与选购参考
对于初次接触阿里云服务器的用户来说,面对众多可选的云盘类型,如ESSD AutoPL、高效云盘、ESSD云盘、SSD云盘等,可能不是很清楚他们之间的区别以及如何选择。这些云盘在最大IOPS、最大吞吐量等性能指标上各有千秋,如何根据自身需求选择适合自己的云盘类型,是用户比较关心的问题。本文将为大家介绍这些云盘的区别,助您轻松找到最适合自己的阿里云云盘。
|
12月前
|
SQL 分布式计算 Apache
Hive的基本操作技巧
以上就是Hive的一些基本操作技巧,希望对你有所帮助。
245 11