《中国人工智能学会通讯》——9.25 搜索引擎点击模型综述

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第9章,第9.25节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

9.25 搜索引擎点击模型综述

在这个信息爆炸的时代,搜索引擎已成为人们在互联网的数据海洋中遨游不可或缺的工具。无论是查找信息、获取资源,还是寻求帮助、发现机遇,都离不开搜索引擎的指引与参考。可以说,搜索引擎已经成为了互联网中的“基础设施”。根据中国互联网络中心(CNNIC)发布的中国互联网络发展状况统计报告显示,截止 2016 年 1 月 , 已有82.3% 的互联网用户使用搜索引擎 , 在互联网网络应用中排名第二 ; 而在移动端也有 77.1% 的用户使用移动端搜索引擎 , 在移动应用中排名第三。由此可见 , 搜索引擎已成为大多数互联网用户必不可少的应用之一 , 因此搜索引擎所提供的搜索结果质量对于用户体验有着极为重要的影响。

在搜索引擎对于不同搜索结果的质量(结果相关性)进行判断(预测)时,最为传统的方法是基于结果内容的相关性预测方法[1] ,该方法通过对搜索时用户提交的查询词以及所有结果的文本内容进行处理,从中提取出有效的衡量结果相关性的特征(例如 TF-IDF [2] 、BM25 [3] 等),从而利用上述特征或指标来衡量不同搜索结果与查询词之间的相关性,进而对所有结果进行筛选和排序。这些方法为搜索引擎系统快速并准确地从大量结果中筛选出符合用户真实搜索需求的结果列表,提供了最为基础有效的解决方案,成为了当前搜索引擎架构中基础的模块之一。然而上述方法并不能完美解决搜索结果相关性预测及排序等问题,例如 Lv et al [4] 指出,当结果内容信息很长时,BM25 指标会变得不能正确衡量结果的相关性。因此,除了结果的内容信息外,搜索引擎有必要引入更多的信息去更好地衡量搜索结果的相关性,从而为搜索用户提供更好的结果排序。

由于互联网网页中往往包含大量超链接,这些超链接使互联网网页得以互相连接,从而组成了不同的网络结构。因此,一个简单的推断是在该网络结构中,不同位置的节点其具有的重要性程度可能不同。所以第二种方法是利用互联网网页的链接结构推断不同结果的重要性[5] 、可靠性 [6]等,从而对不同结果的相关性有更好的估计。上述方法为搜索引擎结果相关性估计和结果排序起到了进一步改进作用,同样成为了搜索引擎的重要模块之一。

除了上述方法外,近年来,利用互联网群体智慧[7]来改善搜索结果相关性估计[8]的方法开始受到关注,并成为了另一种提升搜索引擎结果相关性估计和改进搜索引擎排序的重要方法。由于每天都有大量的用户与搜索引擎进行交互,这些搜索引擎用户在与搜索引擎的交互过程中反映出的隐性反馈信息(主要是点击行为信息),也是搜索引擎改进结果排序的重要影响因素。直观举例来说,如果很多的搜索用户在搜索同一个查询时点击了某个搜索结果,那么该搜索结果就有可能是一个相关的结果。由于每天搜索引擎都可以收集到海量的用户隐性反馈信息,如果能从这些信息中挖掘出用户对于搜索结果的真实相关性反馈,那么就可以利用上述信息对搜索引擎的相关性预测进行更好的改进。

然而,用户在搜索过程中的点击行为可能会受到多种因素的影响。研究表明,由于搜索用户受到结果位置[9-10] 、展现形式 [11] 、可信度 [12]等各种因素的影响,将反馈信息直接应用于结果相关性估计任务往往难以取得较好的效果。针对这一问题,研究人员提出了构建描述用户点击行为的点击模型(Click Model) [13-15] 来尝试解决上述问题。点击模型是用来描述用户从开始搜索到搜索结束过程中点击行为发生过程的模型,不同的模型会尝试描述用户在搜索过程中受到的不同因素影响,以及这些影响之间的相互关联(例如不同的点击模型会对用户检验不同位置的搜索结果的概率有不同的估计,进而尝试去除结果展现位置等因素对用户行为的偏置性影响),最终利用大规模的用户点击信息去推测模型中的不同影响因素所发挥的作用程度,从而更为准确地估计结果的真实相关性和新页面下用户的点击概率,达到更好利用隐性反馈信息的目的。

作为一种用户交互信息的有效利用方法,点击模型在学术界得到了充分关注,并在工业界得到了广泛应用。传统的点击模型主要针对于传统同质化的搜索页面(搜索页面中的结果均采用相近的文本形式展现,结果之间除了文字内容不同外并没有明显的展现形式差异)进行设计。随着 Web2.0 时代的到来,富媒体展现形式被越来越多地应用于搜索交互界面,搜索结果也变得越来越异质化[16] ,这些变化使用户的检验行为(注意力分布偏好、浏览顺序等)发生了明显的改变[17] ,传统的点击模型已经不能正确描述用户的真实行为,相应的排序方法也难以取得较优效果。因此研究人员开始提出针对于垂直搜索结果的点击模型,以及针对非顺序检验行为的点击模型。

本文主要根据点击模型的发展历程介绍相应的主要点击模型,首先是传统的基于位置的点击模型介绍;然后介绍针对于垂直搜索结果的点击模型;最后介绍描述非顺序浏览行为的点击模型。

相关文章
|
9天前
|
人工智能 自然语言处理 API
人工智能大模型之开源大语言模型汇总(国内外开源项目模型汇总)
人工智能大模型之开源大语言模型汇总(国内外开源项目模型汇总)
人工智能大模型之开源大语言模型汇总(国内外开源项目模型汇总)
|
19天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之在maxcompute上跑模型,如何在本地进行推理
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
人工智能平台PAI产品使用合集之在maxcompute上跑模型,如何在本地进行推理
|
5天前
|
机器学习/深度学习 数据采集 人工智能
人工智能:构建自定义机器学习模型的步骤与技巧
【6月更文挑战第25天】构建自定义机器学习模型涉及明确问题、数据收集预处理、特征工程、模型选择训练、评估优化及部署监控。关键技巧包括选择适配的算法、重视数据预处理、精巧的特征工程、有效评估优化和适时的模型更新。通过这些步骤和技巧,可提升模型性能与泛化能力。
|
11天前
|
人工智能 自然语言处理 机器人
【AIGC】大型语言模型在人工智能规划领域模型生成中的探索
【AIGC】大型语言模型在人工智能规划领域模型生成中的探索
37 6
|
10天前
|
传感器 机器学习/深度学习 人工智能
多模态大模型代表了人工智能领域的新一代技术范式
多模态大模型代表了人工智能领域的新一代技术范式
14 2
|
13天前
|
人工智能
人工智能大模型——零样本提示
**零样本提示**是向LLM如ChatGPT提问时不提供示例的方式,适用于目标明确、问题简单和答案固定的场景。例如,翻译请求或简单算术问题。在实践中,清晰、简洁的提示能获得更好响应。案例展示包括翻译和定义解释,ChatGPT能有效回应。理解其应用和技巧的同时,也应注意其对复杂情境理解的限制。
19 3
|
19天前
|
机器学习/深度学习 人工智能 PyTorch
人工智能平台PAI产品使用合集之Alink是否加载预训练好的pytorch模型
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
19天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之如何删除oss路径上特定的模型
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
19天前
|
机器学习/深度学习 人工智能 网络安全
人工智能平台PAI产品使用合集之在本地可以成功进入模型流,但在服务器上无法进入,是什么原因
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
19天前
|
机器学习/深度学习 人工智能 算法
人工智能平台PAI产品使用合集之多目标模型eval比较耗时间,该如何优化
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。