乘积量化比之暴力穷举，有哪些进步呢？-阿里云开发者社区

乘积量化比之暴力穷举，有哪些进步呢？

2022-05-24 386

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 乘积量化比之暴力穷举，有哪些进步呢？

💘无处不在的匹配检索

人脸识别、语音识别、智能客服等人工智能应用在我们日常生活中无处不在。

无论是语音、文字还是图像，一种较为通用的做法是，将其转化为低维度的向量，和已有知识库进行检索匹配，返回识别结果。

微信图片_20220524142738.jpg

例如1家拥有10,000名员工的公司，为了方便员工进出办公场地开启了人脸验证。公司需要先采集每位员工1张近期照片，存储为员工人脸知识库（一般是特征向量的形式）。当某员工扫脸后，后端的AI模型会将图片实时编码为向量，从知识库中检索出最接近的照片。如果二者相似度大于某个阈值，证明是本公司员工，开门大吉。

之前我曾经介绍过几种KNN的高效实现方法，结合有效的特征编码器这些方法完全可以在实际中应用。本文将重点关注另一种向量检索方法——乘积量化，运用了非常巧妙的数据压缩思想。

💘暴力搜索不香吗？

提起向量检索，最直观的方式就是逐一比对的暴力搜索法。但是线性时/空复杂度严重限制了它在实际中的用武之地。

当视频/文本数据规模n达到千万/上亿级别，假设特征维度是D，将会带来灾难性的O(n*D)计算复杂度。所以有了ANN、HNSW、乘积量化等向量检索优化方法。

其中ANN、HNSW代表的KNN算法主要从时间复杂度出发，通过高效的数据存储结构降低搜索时间。乘积量化主要从空间复杂度出发，通过压缩量化显著降低向量大小，进而提升搜索效率。

💘什么是乘积量化？

下面从实例出发，通俗易懂地带大家了解乘积量化方法。乘积量化一般包含两个步骤：首先是向量压缩，其次对压缩后的向量做近邻搜索。

向量压缩

假设有5W张图片，通过CNN/Transformer等网络提取特征后，每张图片包含1024维度的特征向量。那么整体数据集可以由的向量来表示。

微信图片_20220524142759.png

接着，我们将1024维度的向量均分成组子向量，每组子向量维：

微信图片_20220524142813.png

对于每一组子向量，都包含了50K个样本，使用KMeans方法聚成类。即每一个子向量都有256个中心点：

微信图片_20220524142823.png

有了中心点，我们可以用中心点的ID来表示各组子向量中的每一个向量。中心点ID只需要8比特位来保存（），所以原始由32位浮点数精度组成的1024维向量，可以转化为8个8比特整数。单个向量大小从4096字节（）降为8字节。如下图所示：

微信图片_20220524142834.png

乘积量化比之暴力穷举，有哪些进步呢？

💘无处不在的匹配检索

💘暴力搜索不香吗？

💘什么是乘积量化？

向量压缩

最近邻搜索

💘乘积量化食用方法

热门文章

最新文章

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

乘积量化比之暴力穷举，有哪些进步呢？

💘无处不在的匹配检索

💘暴力搜索不香吗？

💘什么是乘积量化？

向量压缩

最近邻搜索

💘乘积量化食用方法

热门文章

最新文章

相关电子书

相关实验场景