检索结果聚类展望

简介:

摘要

检索结果聚类,可以有效地反映出特定Query下,检索结果内容的分布,可以清晰地描述出结果中的各个类别,对Query结果的展示方式亦不再是传统1页若干条结果的流式输送,而是采用展现核心词或代表词的方式,简明扼要地从不同维度提示核心信息,免去用户重新构造Query再搜索或在大量检索结果中寻找、定位所需内容的过程。

关键词:搜索引擎,搜索结果,聚类

 

我们首先来看一个例子:对于Query“苹果”,在Google(www.google.com.hk)的检索结果第一页中,包含了以下若干内容:苹果公司的首页(繁简各1个)、苹果手机及相关产品(3个)、苹果公司的新闻(2个),其它苹果公司的相关网站(股票、企业档案、论坛等,4个)。11条结果中,都是与苹果(公司)紧密相关的内容,或者是苹果公司本身的一些信息(如股票、员工中毒等新闻),或者是苹果公司的相关新产品(Iphone、Ipad等),但无论从哪个角度上描述,都没有能跳出苹果公司的范围。由于苹果公司的大量用户需求,使得苹果公司独占Google首页检索结果。

图1 Google中苹果检索结果分布

对于苹果这样一个有多重含义的Query,大多数用户的大多数需求均是对于苹果公司周边的需求,如苹果的产品、新闻等,对Google中苹果前20页结果进行了下简单的统计,如图1所示:(1)苹果公司的相关内容为130条,除第一页的内容外,还包含乔布斯、APP、越狱等,(2)苹果种植,17条结果包括了栽培、交易、市场行情等,(3)健康相关话题12条结果,包括了苹果营养价值、减肥等,(4)台湾苹果日报9条结果,(5)各式百科9条结果,(6)图片、视频应用4条结果,(7)其它有关教育、家居、基金等共19条结果。可以明显看出至少还有三类用户,分别是苹果栽培、苹果养生、台湾苹果日报的受众。但由于搜索引擎展现的问题导致这些需求被淹没了。

检索结果聚类则期望通过对检索结果的类聚,将相关内容聚合成一类,对每一类别提取出代表性标签,用于用户引导,达到区分不同人群不同需求的问题。可以认为在原有的流式结果基础上增加资源导航功能,引导用户更快速地定位自己的所需资源。类似于Google检索页面中的Search Tools,只不过生成的标签集是根据Query动态生成的,向用户展示资源引导,如图2所示(理想结果)

图2 “苹果”的理想聚类结果

但检索结果聚类能做的事远不止只这些,它能够呈现一个资源维度的立体层次结构。如图-3所示,这一体系充分揭示了检索结果中数据的分布情况,能够从不同层面描绘每一个可能的具体需求,如都是对苹果的需求,有的人关注的是Iphone、Ipad,有的人则更关注乔帮主,相信找越狱方法的也大有人在,而果农的需求及少数健康人士对苹果营养学的探索也可得到满足。

检索结果聚类在对用户引导方面有自己的优势。目前大多数用户引导是通过分析用户行为数据而获得的,这种方式能够充分反映用户的需求,即用户想要什么。但还有一个问题,就是网页中包含什么,用户的需求是否一定在网页中找得到恰当的或足够的内容进行满足。也就是说检索结果聚类是需求满足的过程,只有当用户的需求与资源中包含的内容相匹配时,用户才能获得满意的结果。

以韩寒为例,如图-4所示,用户需求可能为(百度某日“相关搜素”结果)博客,方舟子,微博,身高,马英九,老婆等,而资源中表现的数据为,博客,方舟子,微博,郭敬明,语录,代笔门等,从图中可以看出,用户需求与资源中都包含与韩寒紧密相关的博客、微博、方舟子,说明资源与需求能够良好地匹配;单从用户需求方面看,对于热点、隐私、八卦等内容更感兴趣,受突发事件影响较大,这也正反映出用户群体的猎奇、围观心理,而资源则更加稳定,从韩寒早期齐名的“郭敬明”到较新的“代笔门”均有所体现,相对于用户需求而言更强调与韩寒相关的数据资源有哪些,这些资源更加客观更加稳定。

以上内容一直有一个隐含假设,就是检索结果与用户Query具有相关性,针对每一Query的特定结果集进行聚类,可对Query本身起到消歧、扩展的作用,而从数据维度上与用户需求相关但却描述了资源维度的所具有的内容,因而可协助用户更快地定位有用数据,引导用户行为。

检索结果聚类目前应用的并不多,但资源维度的数据能够真实反映数据的分布,对弥补、验证需求维度的信息有益无害,对于即时检索信息的挖掘、临时知识体系的构建均有较大帮助。目前技术还不太成熟,在诸多领域还大有可为,欢迎大家发表意见共同探讨。

by hanzhonghua


本文转自百度技术51CTO博客,原文链接:http://blog.51cto.com/baidutech/1033670,如需转载请自行联系原作者

相关文章
|
2月前
|
机器学习/深度学习 数据采集 搜索推荐
Paper Digest | 突破个性化推荐数据稀疏性:长尾增强的图对比学习算法研究
本文提出了一种新的长尾增强的图对比学习方法(LAGCL),该方法促使模型同时兼顾头部节点与尾部节点之间的知识,并通过长尾增强技术来使模型产出更均匀更准确的节点表征,从而改进基于 GNN 的推荐任务。
|
3月前
|
机器学习/深度学习 算法 搜索推荐
全方位了解向量检索
如果在一个技术方案中,存在寻找“相似”的场景,那么这个场景就有可能使用向量检索的技术方案。
|
4月前
|
编解码 算法 数据挖掘
【数据挖掘】聚类趋势估计、簇数确定、质量测定等评估方法详解(图文解释 超详细)
【数据挖掘】聚类趋势估计、簇数确定、质量测定等评估方法详解(图文解释 超详细)
51 0
|
7月前
|
算法 搜索推荐 计算机视觉
图片相似度计算及检索调研
图片相似度计算和相似图片搜索,是图片识别领域两个常见的应用场景。例如搜索相似商品,和相似的图片,在百度、淘宝中都有应用。在某些业务中,也存在对图片相似度的计算和判断。因此,在这里简单介绍一下相关算法。
337 0
|
3月前
|
人工智能 自然语言处理 Cloud Native
向量检索服务在语义检索、知识库搭建、AI多模态搜索等场景中有着广泛的应用
向量检索服务在语义检索、知识库搭建、AI多模态搜索等场景中有着广泛的应用
76 0
|
3月前
|
Linux 异构计算 Docker
QAnything本地知识库问答系统:基于检索增强生成式应用(RAG)两阶段检索、支持海量数据、跨语种问答
QAnything本地知识库问答系统:基于检索增强生成式应用(RAG)两阶段检索、支持海量数据、跨语种问答
QAnything本地知识库问答系统:基于检索增强生成式应用(RAG)两阶段检索、支持海量数据、跨语种问答
|
3月前
|
机器学习/深度学习 人工智能 算法
大规模向量检索
更加形象化的讲述向量检索
|
5月前
|
自然语言处理 算法 数据库
OpenSearch向量检索和大模型方案深度解读
深度解读开放搜索在向量检索和大模型方面的升级演进。
81116 7
|
6月前
|
机器学习/深度学习 自然语言处理 数据挖掘
向量召回:深入评估离线体系,探索优质召回方法
向量召回:深入评估离线体系,探索优质召回方法
向量召回:深入评估离线体系,探索优质召回方法
|
6月前
|
机器学习/深度学习 搜索推荐 算法
推荐系统的下一步?阿里时空聚合GNN,效果吊打LightGCN!
推荐系统的下一步?阿里时空聚合GNN,效果吊打LightGCN!
136 0