Faiss: 入门导读

简介: Faiss是Facebook于2017年开源的一个相似度检索工具。

 

                                                引言


Faiss是Facebook于2017年开源的一个相似度检索工具。


相似度检索是啥?搜索、广告、推荐都需要用到相似度的检索。因为无论是网页、广告抑或推荐博文一定要符合你的查询意图才能带来更好的用户体验。


Faiss支持的不止是文本的相似检索,它支持多媒体文档。图片,视频都可以,只要把它们向量化就行。


本文主要是解读一下Faiss的官方Get Started文档中的Demo代码:


https://github.com/facebookresearch/faiss/wiki/Getting-started


虽然代码只有潦潦数行,但对于初学者也值得玩味。另外注意本文对demo代码有微调。


                                               正文


import numpy as np
d = 64                           # dimension
nb = 100000                      # database size
nq = 10000                       # nb of queries
np.random.seed(1234)             # make reproducible
xb = np.random.random((nb, d)).astype('float32')
xb[:, 0] += np.arange(nb) / 1000.


微信图片_20220528165500.pngnumpy 随机数

np.random.random((nb, d)) 使用numpy随机数生成二维数组(矩阵)。其中nb表示矩阵的行数,d表示矩阵的列数。


随机数的数值范围在 [0.0, 1.0)区间,本来就是浮点型,貌似可以不用再astype了。


微信图片_20220528165500.pngnumpy.array

np.random.random((nb, d)) 生成的数据类型是numpy.array。


python3虽然也有array类型,但是只支持一维。普通的list虽然可以二维,但是性能太差。所以numpy有自己的array类型,并且有更丰富的api。

微信图片_20220528165500.pngnumpy.array 切片

xb 就是一个numpy.array了。然后 xb[:, 0] 表示的是对二维数组切片。


这个方括号里冒号逗号分隔,可以视作三个参数:


•参数1和参数2表示的选择的行范围。用法类型list的切片,只是这里选择的是行。

•参数3表示在选择完行之后,要选择的列的下标。


所以xb[:, 0]表示的是选择所有行的第一列。

悄悄告诉你:别试了,即使是二维的list不支持这个写法哦。


import faiss                   # make faiss available
index = faiss.IndexFlatL2(d)   # build the index
print(index.is_trained)
print(index.ntotal)
index.add(xb)                  # add vectors to the index
print(index.ntotal)


这个算是进入正题了,导入faiss包(需要事先安装哦,建议使用conda安装)


微信图片_20220528165500.pngfaiss.IndexFlatL2(d)

faiss.IndexFlatL2(d)创建了一个IndexFlatL2类型的索引。faiss支持丰富的索引类型,这里创建的只是最简单的索引,它进行暴力的L2距离搜索。


基于向量空间计算相似度,主要有两种方法,一种就是L2(即欧几里得距离),另外一种是计算夹角cosin(即余弦相似度),本文这里不做展开,后续会有文章单独介绍。


另外创建索引一定要指定维度,也就是参数d。


微信图片_20220528165500.pngindex.is_trained

index.is_trained 表示是否训练完成。大部分索引需要训练,而IndexFlatL2不需要,所以这里会直接返回True。


微信图片_20220528165500.pngindex.add(xb)

xb是前面用numpy生成的随机二维数组(一组向量),将其添加到索引中。

或者可以说成是给xb构建了一个索引。


微信图片_20220528165500.pngindex.ntotal

这个表示被索引数据的数目,在执行index.add之前ntotal是0,在index.add之后ntotal为100000,也就是nb的值。


k = 4                          # we want to see 4 nearest neighbors
D, I = index.search(xb[:5], k) # sanity check
print(I)
print(D)

微信图片_20220528165500.pngindex.search


index.search就是在进行相似性检索了。参数1是输入数据,参数2是个数。


k = 4,表示要搜索4个近邻(NN)。也就是通常说的KNN,K-means的K。


xb[:5]是xb的0 - 4行共5组向量,在xb中找到与输入的5个向量最相似的4个向量。


微信图片_20220528165500.png返回值:I

I表示的是id。输出如下:

[[  0 393 363  78]

[  1 555 277 364]

[  2 304 101  13]

[  3 173  18 182]

[  4 288 370 531]]


因为输入数据xb[:5]含有5个向量,所以返回的结果也是5个(5行)。

每一行有4个元素(因为k=4)。从左到右表示距离从近到远。元素的值是xb中的向量的id。


微信图片_20220528165500.png返回值:D

D表示的就是计算出来的距离。输出如下:

[[0.        7.1751738 7.20763   7.2511625]

[0.        6.3235645 6.684581  6.799946 ]

[0.        5.7964087 6.391736  7.2815123]

[0.        7.2779055 7.527987  7.6628466]

[0.        6.7638035 7.2951202 7.3688145]]


也就是I的矩阵中,返回的向量id和输入向量之间的距离。

从结果可以验证,确实从左到右其距离越来越远。


xq = np.random.random((nq, d)).astype('float32')
xq[:, 0] += np.arange(nq) / 1000.
D, I = index.search(xq, k)     # actual search
print(I[:5])                   # neighbors of the 5 first queries
print(I[-5:])                  # neighbors of the 5 last queries
print(D)

这个代码片段其实和上一个类似的,只是这个是在模拟真实的检索。


因为真实的相似检索过程,输入数据可不是文档集合的xb[:5],而是另外一组向量。


比如用户看完一篇文章,要推荐其他文章给用户。那么xq就是将看完的这篇文章的特征向量化,然后去所有候选的文章集合中去找最与之相似的几篇。


这个过程也就是『召回』。在信息检索和推荐领域都有召回的概念。


微信图片_20220528170047.png

相关文章
|
自然语言处理 算法 前端开发
Multi-Agent实践第5期:RAG智能体的应用:让AgentScope介绍一下自己吧
本期文章,我们将向大家展示如何使用AgentScope中构建和使用具有RAG功能的智能体,创造AgentScope助手群,为大家解答和AgentScope相关的问题。
|
Web App开发 开发工具 git
如何下载Github上的单个文件或者指定目录?
如何下载Github上的单个文件或者指定目录?
3244 0
如何下载Github上的单个文件或者指定目录?
|
12月前
|
前端开发 API 网络架构
深入浅出:GraphQL 的优势与使用场景
【10月更文挑战第6天】深入浅出:GraphQL 的优势与使用场景
1039 0
|
存储 Go
Golang语言基于go module方式管理包(package)
这篇文章详细介绍了Golang语言中基于go module方式管理包(package)的方法,包括Go Modules的发展历史、go module的介绍、常用命令和操作步骤,并通过代码示例展示了如何初始化项目、引入第三方包、组织代码结构以及运行测试。
396 3
|
Java Python Windows
Python pip 源设置成国内源,阿里云源,清华大学源,最方便的方式,都在这里了
Python pip 源设置成国内源,阿里云源,清华大学源,最方便的方式,都在这里了
74777 0
|
机器学习/深度学习 人工智能 自然语言处理
合合信息Embedding模型获得MTEB中文榜单第一
合合信息近日发布文本向量化模型acge_text_embedding,在MTEB中文榜单(C-MTEB)中荣获第一,该模型在处理文本分类、语义相似度计算和情感分析等方面表现出色。MTEB是一个评估文本嵌入模型的综合基准,包含多种语言和任务,而C-MTEB专注于中文文本。acge模型具有较小的模型大小和较高的分类任务性能,支持最大1024个tokens,适用于各种应用场景,如电商、医疗和教育领域,能提升信息处理效率和推荐精准度。此外,用户可以通过在线平台体验acge模型的效果。
|
机器学习/深度学习 存储 算法
Faiss为啥这么快?原来是量化器在做怪!1
Faiss为啥这么快?原来是量化器在做怪!
898 0
|
存储 SQL 自然语言处理
RAG技术全解析:打造下一代智能问答系统
一、RAG简介 大型语言模型(LLM)已经取得了显著的成功,尽管它们仍然面临重大的限制,特别是在特定领域或知识密集型任务中,尤其是在处理超出其训练数据或需要当前信息的查询时,常会产生“幻觉”现象。为了克服这些挑战,检索增强生成(RAG)通过从外部知识库检索相关文档chunk并进行语义相似度计算,增强了LLM的功能。通过引用外部知识,RAG有效地减少了生成事实不正确内容的问题。RAG目前是基于LLM系统中最受欢迎的架构,有许多产品基于RAG构建,使RAG成为推动聊天机器人发展和增强LLM在现实世界应用适用性的关键技术。 二、RAG架构 2.1 RAG实现过程 RAG在问答系统中的一个典型
1508 2
|
Ubuntu Linux 开发工具
阿里云主机的Milk-V Duo开发板python环境搭建
Milk-V Duo是一款基于算能CV1800B芯片的开发板。搭载阿里云平头哥玄铁C906处理器核心,最高频率为1GHz,视频解码、2D图形加速能力强,可应用于智能语音、智能汽车及高清显示等领域。开发板身材小巧,大小和树莓派Pico相当,引脚也基本一致,但是功能更强大一些,能够运行基于LINUX和RTOS的操作系统。
1402 0
|
机器学习/深度学习 算法 数据挖掘
【KNN算法详解(用法,优缺点,适用场景)及应用】
【KNN算法详解(用法,优缺点,适用场景)及应用】
1027 0