《中国人工智能学会通讯》——9.25 搜索引擎点击模型综述

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第9章,第9.25节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

9.25 搜索引擎点击模型综述

在这个信息爆炸的时代,搜索引擎已成为人们在互联网的数据海洋中遨游不可或缺的工具。无论是查找信息、获取资源,还是寻求帮助、发现机遇,都离不开搜索引擎的指引与参考。可以说,搜索引擎已经成为了互联网中的“基础设施”。根据中国互联网络中心(CNNIC)发布的中国互联网络发展状况统计报告显示,截止 2016 年 1 月 , 已有82.3% 的互联网用户使用搜索引擎 , 在互联网网络应用中排名第二 ; 而在移动端也有 77.1% 的用户使用移动端搜索引擎 , 在移动应用中排名第三。由此可见 , 搜索引擎已成为大多数互联网用户必不可少的应用之一 , 因此搜索引擎所提供的搜索结果质量对于用户体验有着极为重要的影响。

在搜索引擎对于不同搜索结果的质量(结果相关性)进行判断(预测)时,最为传统的方法是基于结果内容的相关性预测方法[1] ,该方法通过对搜索时用户提交的查询词以及所有结果的文本内容进行处理,从中提取出有效的衡量结果相关性的特征(例如 TF-IDF [2] 、BM25 [3] 等),从而利用上述特征或指标来衡量不同搜索结果与查询词之间的相关性,进而对所有结果进行筛选和排序。这些方法为搜索引擎系统快速并准确地从大量结果中筛选出符合用户真实搜索需求的结果列表,提供了最为基础有效的解决方案,成为了当前搜索引擎架构中基础的模块之一。然而上述方法并不能完美解决搜索结果相关性预测及排序等问题,例如 Lv et al [4] 指出,当结果内容信息很长时,BM25 指标会变得不能正确衡量结果的相关性。因此,除了结果的内容信息外,搜索引擎有必要引入更多的信息去更好地衡量搜索结果的相关性,从而为搜索用户提供更好的结果排序。

由于互联网网页中往往包含大量超链接,这些超链接使互联网网页得以互相连接,从而组成了不同的网络结构。因此,一个简单的推断是在该网络结构中,不同位置的节点其具有的重要性程度可能不同。所以第二种方法是利用互联网网页的链接结构推断不同结果的重要性[5] 、可靠性 [6]等,从而对不同结果的相关性有更好的估计。上述方法为搜索引擎结果相关性估计和结果排序起到了进一步改进作用,同样成为了搜索引擎的重要模块之一。

除了上述方法外,近年来,利用互联网群体智慧[7]来改善搜索结果相关性估计[8]的方法开始受到关注,并成为了另一种提升搜索引擎结果相关性估计和改进搜索引擎排序的重要方法。由于每天都有大量的用户与搜索引擎进行交互,这些搜索引擎用户在与搜索引擎的交互过程中反映出的隐性反馈信息(主要是点击行为信息),也是搜索引擎改进结果排序的重要影响因素。直观举例来说,如果很多的搜索用户在搜索同一个查询时点击了某个搜索结果,那么该搜索结果就有可能是一个相关的结果。由于每天搜索引擎都可以收集到海量的用户隐性反馈信息,如果能从这些信息中挖掘出用户对于搜索结果的真实相关性反馈,那么就可以利用上述信息对搜索引擎的相关性预测进行更好的改进。

然而,用户在搜索过程中的点击行为可能会受到多种因素的影响。研究表明,由于搜索用户受到结果位置[9-10] 、展现形式 [11] 、可信度 [12]等各种因素的影响,将反馈信息直接应用于结果相关性估计任务往往难以取得较好的效果。针对这一问题,研究人员提出了构建描述用户点击行为的点击模型(Click Model) [13-15] 来尝试解决上述问题。点击模型是用来描述用户从开始搜索到搜索结束过程中点击行为发生过程的模型,不同的模型会尝试描述用户在搜索过程中受到的不同因素影响,以及这些影响之间的相互关联(例如不同的点击模型会对用户检验不同位置的搜索结果的概率有不同的估计,进而尝试去除结果展现位置等因素对用户行为的偏置性影响),最终利用大规模的用户点击信息去推测模型中的不同影响因素所发挥的作用程度,从而更为准确地估计结果的真实相关性和新页面下用户的点击概率,达到更好利用隐性反馈信息的目的。

作为一种用户交互信息的有效利用方法,点击模型在学术界得到了充分关注,并在工业界得到了广泛应用。传统的点击模型主要针对于传统同质化的搜索页面(搜索页面中的结果均采用相近的文本形式展现,结果之间除了文字内容不同外并没有明显的展现形式差异)进行设计。随着 Web2.0 时代的到来,富媒体展现形式被越来越多地应用于搜索交互界面,搜索结果也变得越来越异质化[16] ,这些变化使用户的检验行为(注意力分布偏好、浏览顺序等)发生了明显的改变[17] ,传统的点击模型已经不能正确描述用户的真实行为,相应的排序方法也难以取得较优效果。因此研究人员开始提出针对于垂直搜索结果的点击模型,以及针对非顺序检验行为的点击模型。

本文主要根据点击模型的发展历程介绍相应的主要点击模型,首先是传统的基于位置的点击模型介绍;然后介绍针对于垂直搜索结果的点击模型;最后介绍描述非顺序浏览行为的点击模型。

相关文章
|
20天前
|
人工智能 数据挖掘 大数据
人工智能模型决策过程:机器与人类协作成效
决策智能(DI)融合AI与人类判断,提升商业决策质量。通过数据驱动的预测与建议,结合人机协作,实现更高效、精准的业务成果,推动企业迈向数据文化新阶段。(238字)
|
6月前
|
数据采集 人工智能 缓存
深挖“全栈智算”之力 中兴通讯开启AI普惠新纪元
深挖“全栈智算”之力 中兴通讯开启AI普惠新纪元
180 1
|
11月前
|
机器学习/深度学习 人工智能 机器人
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
263 95
|
11月前
|
机器学习/深度学习 人工智能 图形学
如何将图形学先验知识融入到人工智能模型中?
如何将图形学先验知识融入到人工智能模型中?
281 94
|
10月前
|
人工智能 JSON 算法
魔搭支持在阿里云人工智能平台PAI上进行模型训练、部署了!
现在,魔搭上的众多模型支持在阿里云人工智能平台PAI-Model Gallery上使用阿里云算力资源进行模型训练和部署啦!
555 22
|
机器学习/深度学习 人工智能 数据处理
人工智能平台PAI操作报错合集之任务重启后出现模型拆分报错,该怎么办
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
10月前
|
机器学习/深度学习 人工智能 算法
人工智能浪潮下的编程实践:构建你的第一个机器学习模型
在人工智能的巨浪中,每个人都有机会成为弄潮儿。本文将带你一探究竟,从零基础开始,用最易懂的语言和步骤,教你如何构建属于自己的第一个机器学习模型。不需要复杂的数学公式,也不必担心编程难题,只需跟随我们的步伐,一起探索这个充满魔力的AI世界。
191 12
|
11月前
|
机器学习/深度学习 数据采集 人工智能
探索人工智能中的深度学习模型优化策略
探索人工智能中的深度学习模型优化策略
384 13
|
机器学习/深度学习 人工智能 算法
鸟类识别系统Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+ResNet50算法模型+图像识别
鸟类识别系统。本系统采用Python作为主要开发语言,通过使用加利福利亚大学开源的200种鸟类图像作为数据集。使用TensorFlow搭建ResNet50卷积神经网络算法模型,然后进行模型的迭代训练,得到一个识别精度较高的模型,然后在保存为本地的H5格式文件。在使用Django开发Web网页端操作界面,实现用户上传一张鸟类图像,识别其名称。
422 12
鸟类识别系统Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+ResNet50算法模型+图像识别
|
11月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
394 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型

热门文章

最新文章