Nmslib高维空间最近邻逼近搜索算法介绍

简介: 业务场景上一次介绍图像搜索的基本原理,现在记录下使用的数据包的问题。查询图片先进行特征提取,使用一个向量来表示,之后使用该向量与数据库中所有的商品向量进行计算相似度指标,比如cos距离,欧式距离,汉明距离。

业务场景

上一次介绍图像搜索的基本原理,现在记录下使用的数据包的问题。
查询图片先进行特征提取,使用一个向量来表示,之后使用该向量与数据库中所有的商品向量进行计算相似度指标,比如cos距离,欧式距离,汉明距离。
具体的取决于向量的形式,有的先用cnn提取特征向量,可以计算其cos距离,有的提取之后对其进行哈希编码,先用汉明距离进行粗排,之后按照欧式距离进行重排。
这里就面临这样的一个问题:

  • 特征向量一般都是高维,使用暴力算法计算相似度的话会非常耗时,满足不了实际应用场景;

没有等你算完,使用者的心就哇凉哇凉的,没有耐心等待的,而使用淘宝拍立淘的时候,响应速度非常快,用户体验很好!
这个时候就需要考虑使用一些快速计算的方法——ANN。

ANN

一看到ANN,第一反应应该是人工神经网络,这里是Approximate Nearest Neighbor,近似邻居算法。
关于这方面的算法有很多,比如Annoyscikit-learnhnswlib, nmslib等等。
几乎所有的ANN方法都是对全空间的划分,大多数使用的树模型,详细的介绍可以上网查询一下,这里介绍本人使用过的nmslib包讲解。

NMSLIB

项目地址:https://github.com/nmslib/nmslib
非度量空间库(NMSLIB)是一种高效的跨平台相似性搜索库和用于评估相似性搜索方法的工具包。核心库并没有任何第三方依赖。
NMSLIB是一个可扩展的库,这意味着可以添加新的搜索方法和距离函数。NMSLIB可以直接在C ++和Python中使用。此外,还可以构建一个查询服务器,可以从Java(或Apache Thrift支持的其他语言)中使用。
这里介绍python的使用方法。

实例

import nmslib as nms

## 构建索引
index = nms.init(method='hnsw', space='cosinesimil')
__index = {}
product_dict_path = JSON_PATH + '/product_cv.json'
with open(product_dict_path, 'r') as f:
    for line in f:
         pid, feat = line.strip('\n').split('\t')
         # init knn data frame
         __index.setdefault(pid, json.loads(feat))
         index.addDataPoint(pid, json.loads(feat))
        # set knn parameter
        INDEX_TIME_PARAMS = {
            'indexThreadQty': 10,
            'M': 100,
            'efConstruction': 2000,
            'post': 2}
        index.createIndex(self.INDEX_TIME_PARAMS)
        
## 使用
pids_index, distance = index.knnQuery(q_feat, k)

上述代码只是片段,详细讲解下各个参数的设置

  • method : `hnsw'方法;
  • space: 'cosinesimil'空间;
  • INDEX_TIME_PARAMS: 详细参数

关于参数的设置可以见

参考

目录
相关文章
|
5月前
|
存储 算法 调度
基于和声搜索优化算法的机器工作调度matlab仿真,输出甘特图
本程序基于和声搜索优化算法(Harmony Search, HS),实现机器工作调度的MATLAB仿真,输出甘特图展示调度结果。算法通过模拟音乐家即兴演奏寻找最佳和声的过程,优化任务在不同机器上的执行顺序,以最小化完成时间和最大化资源利用率为目标。程序适用于MATLAB 2022A版本,运行后无水印。核心参数包括和声记忆大小(HMS)等,适应度函数用于建模优化目标。附带完整代码与运行结果展示。
149 24
|
5月前
|
人工智能 自然语言处理 算法
阿里云 AI 搜索开放平台:从算法到业务——AI 搜索驱动企业智能化升级
本文介绍了阿里云 AI 搜索开放平台的技术的特点及其在各行业的应用。
568 3
|
2月前
|
存储 搜索推荐 算法
加密算法、排序算法、字符串处理及搜索算法详解
本文涵盖四大类核心技术知识。加密算法部分介绍了对称加密(如 AES)、非对称加密(如 RSA)、哈希摘要(如 SHA-2)、签名算法的特点及密码存储方案(加盐、BCrypt 等)。 排序算法部分分类讲解了比较排序(冒泡、选择、插入、归并、快排、堆排序)和非比较排序(计数、桶、基数排序)的时间复杂度、适用场景及实现思路,强调混合排序的工业应用。 字符串处理部分包括字符串反转的双指针法,及项目中用正则进行表单校验、网页爬取、日志处理的实例。 搜索算法部分详解了二分查找的实现(双指针与中间索引计算)和回溯算法的概念(递归 + 剪枝),以 N 皇后问题为例说明回溯应用。内容全面覆盖算法原理与实践
109 0
|
7月前
|
机器学习/深度学习 算法
算法系列之搜索算法-深度优先搜索DFS
深度优先搜索和广度优先搜索一样,都是对图进行搜索的算法,目的也都是从起点开始搜索,直到到达顶点。深度优先搜索会沿着一条路径不断的往下搜索,直到不能够在继续为止,然后在折返,开始搜索下一条候补路径。
337 62
算法系列之搜索算法-深度优先搜索DFS
|
3月前
|
机器学习/深度学习 算法 数据可视化
基于Qlearning强化学习的机器人迷宫路线搜索算法matlab仿真
本内容展示了基于Q-learning算法的机器人迷宫路径搜索仿真及其实现过程。通过Matlab2022a进行仿真,结果以图形形式呈现,无水印(附图1-4)。算法理论部分介绍了Q-learning的核心概念,包括智能体、环境、状态、动作和奖励,以及Q表的构建与更新方法。具体实现中,将迷宫抽象为二维网格世界,定义起点和终点,利用Q-learning训练机器人找到最优路径。核心程序代码实现了多轮训练、累计奖励值与Q值的可视化,并展示了机器人从起点到终点的路径规划过程。
104 0
|
7月前
|
存储 算法
算法系列之搜索算法-广度优先搜索BFS
广度优先搜索(BFS)是一种非常强大的算法,特别适用于解决最短路径、层次遍历和连通性问题。在面试中,掌握BFS的基本实现和应用场景,能够帮助你高效解决许多与图或树相关的问题。
328 1
算法系列之搜索算法-广度优先搜索BFS
|
7月前
|
算法
基于SOA海鸥优化算法的三维曲面最高点搜索matlab仿真
本程序基于海鸥优化算法(SOA)进行三维曲面最高点搜索的MATLAB仿真,输出收敛曲线和搜索结果。使用MATLAB2022A版本运行,核心代码实现种群初始化、适应度计算、交叉变异等操作。SOA模拟海鸥觅食行为,通过搜索飞行、跟随飞行和掠食飞行三种策略高效探索解空间,找到全局最优解。
141 22
|
算法
【算法】二分算法——搜索插入位置
【算法】二分算法——搜索插入位置
104 0
|
10月前
|
算法 搜索推荐 数据库
二分搜索:高效的查找算法
【10月更文挑战第29天】通过对二分搜索的深入研究和应用,我们可以不断挖掘其潜力,为各种复杂问题提供高效的解决方案。相信在未来的科技发展中,二分搜索将继续发挥着重要的作用,为我们的生活和工作带来更多的便利和创新。
153 1
|
11月前
|
算法 决策智能
基于禁忌搜索算法的VRP问题求解matlab仿真,带GUI界面,可设置参数
该程序基于禁忌搜索算法求解车辆路径问题(VRP),使用MATLAB2022a版本实现,并带有GUI界面。用户可通过界面设置参数并查看结果。禁忌搜索算法通过迭代改进当前解,并利用记忆机制避免陷入局部最优。程序包含初始化、定义邻域结构、设置禁忌列表等步骤,最终输出最优路径和相关数据图表。

热门文章

最新文章