搜索引擎是如何进行查询分析的?

简介: 搜索引擎通过查询分析理解用户意图,主要进行分词粒度、词属性和用户需求分析。中文搜索需解决无空格分隔问题,采用混合粒度分词,如“极客时间”拆为“极客”“时间”“极客时间”,提升检索准确率。(236字)

一般来说,用户在搜索的时候,搜索词往往会非常简短,很难完全体现用户的实际意图。而如果我们无法准确地理解用户的真实意图,那搜索结果的准确性就无从谈起了。因此,搜索引擎中检索系统的第一步,一定是进行查询分析。具体来说,就是理解用户输入的搜索词,并且对输错的查询词进行查询纠正,以及对意图不明的查询词进行查询推荐。那查询分析具体该怎么做呢?

在查询分析的过程中,我们主要会对搜索词进行分词粒度分析、词的属性分析、用户需求分析等工作。其中,分词粒度分析直接关系到我们以什么 key 去倒排索引中检索,而属性分析和需求分析则可以帮助我们在打分排序时,有更多的因子可以考虑。因此,分词粒度分析是查询分析的基础。那什么是分词粒度分析呢?

分词粒度分析是中文搜索中特有的一个环节。因为中文词和英文词相比,最大的区别是词与词之间没有明确的分隔标志(空格)。因此,对于中文的搜索输入,我们要做的第一件事情,是使用分词工具进行合理的分词。但分词,就会带来一个分词粒度的问题。

比如说,当用户输入「极客时间」时:如果我们按单字来切分,这个搜索词就会变成「极 / 客 / 时 / 间」这四个检索词;如果是按「极客 / 时间」来切分,就会变成两个检索词的组合;如果是不做任何分词,将「极客时间」当成一个整体,那就是一个搜索短语。切分的方式这么多,到底我们该怎么选择呢?

一般来说,我们会使用默认的标准分词粒度再结合整个短语,作为我们的检索关键词去倒排索引中检索,这就叫作混合粒度的分词方式。那「极客时间」就会被分为【极客、时间、极客时间】这样的检索词组合。如果检索后返回的结果数量不足,那我们还会去查询【极、客、时、间】这样的更细粒度的单字组合。

相关文章
|
4月前
|
运维 JavaScript 前端开发
阿里云函数计算入门:5 分钟部署你的第一个 Serverless 应用
本文介绍如何在5分钟内使用阿里云函数计算(FC)部署首个Serverless应用。通过创建服务、配置HTTP触发器、编写Node.js代码并测试,即可快速上线一个可公网访问的HTTP接口,无需管理服务器,轻松实现轻量开发与扩展。
|
4月前
|
编解码 算法 前端开发
java后端开发学习路线+避坑指南
java后端开发学习路线+避坑指南
|
4月前
|
存储
链表在检索和动态调整上的优缺点
链表因无法随机访问,检索效率低,尤其在无序或有序情况下均难以实现快速查找。但其优势在于动态调整:插入和删除节点仅需O(1)时间,远优于数组的O(n)移动开销,适合频繁修改的场景。
|
4月前
|
算法 搜索推荐
经典的 TF-IDF 算法是什么?
TF-IDF是衡量词与文档相关性的经典算法,由词频(TF)和逆文档频率(IDF)相乘得出。TF反映词在文档中的重要性,IDF体现词的区分度。词频越高、文档频率越低的词,权重越大。通过累加各词项的TF-IDF值,可计算查询与文档的整体相关性,广泛应用于搜索引擎排序。
|
4月前
|
算法 搜索推荐
如何使用概率模型中的 BM25 算法进行打分?
BM25是一种基于概率模型的文本相关性打分算法,可视为TF-IDF的升级版。它综合考虑词频(TF)、逆文档频率(IDF)、文档长度及查询词频,并引入非线性增长与饱和机制。通过参数k1、k2和b调节词频权重、文档长度影响和查询词权重,使评分更精准。广泛应用于Elasticsearch、Lucene等搜索引擎中。
|
4月前
|
数据采集 存储 机器学习/深度学习
搜索引擎的整体架构和工作过程
搜索引擎由爬虫、索引和检索三大系统构成:爬虫负责抓取网页并存储;索引系统对网页去重、分析并构建倒排索引;检索系统通过查询分析、相关性排序等技术,返回精准结果。全过程融合文本分析、机器学习与大规模计算,确保高效准确搜索。
|
4月前
|
机器学习/深度学习 算法 数据挖掘
聚类算法和局部敏感哈希的区别?
聚类算法与局部敏感哈希均用于高维数据相似检索。局部敏感哈希通过哈希函数降维,速度快但精度低,适合表面特征匹配;聚类算法(如K-Means)保留高维特征,按距离划分簇,类内紧凑、类间分离,更适用于语义相似性检索,精度更高,但计算开销较大。两者权衡在于速度与准确性的取舍。
|
4月前
|
存储 算法 数据挖掘
如何使用乘积量化压缩向量?
乘积量化通过将高维向量划分为多个低维子空间,对每个子空间聚类并用聚类ID表示子向量,大幅压缩存储空间。例如,1024维向量可分段聚类,用32比特替代原始4KB空间,压缩率达1/1024,显著提升内存加载与检索效率。
|
4月前
|
存储 人工智能 算法
如何对乘积量化进行倒排索引?
结合聚类、乘积量化与倒排索引,可高效实现近似最近邻检索。先用K-Means将样本分为1024类,以类中心为基准计算残差向量,并用乘积量化压缩存储。查询时,先定位最近聚类,查倒排表获取候选向量,再通过量化距离计算快速返回Top-K结果。该方法大幅减少搜索空间,在保证精度的同时提升速度,广泛应用于图像检索、推荐系统等领域,适用于各类高维向量的快速匹配。
|
4月前
|
数据挖掘 索引
向量检索:提供智能匹配能力
向量检索通过将广告与用户兴趣映射为高维向量,实现智能匹配,突破传统标签定向局限。借助“聚类+倒排索引+乘积量化”技术,可在毫秒级高效完成海量向量近邻搜索,提升广告召回精准度与系统性能。