吴星搜索点击模型简释

简介: 先来段华师大MBA校教育中心的对原文作者的介绍。 陈运文是盛大文学首席数据官(CDO),在加入盛大集团之前,他曾在百度公司搜索技术部任职,负责百度的语义分析算法、搜索数据分析、相关性排序等核心技术研发工作。

先来段华师大MBA校教育中心的对原文作者的介绍。

陈运文是盛大文学首席数据官(CDO),在加入盛大集团之前,他曾在百度公司搜索技术部任职,负责百度的语义分析算法、搜索数据分析、相关性排序等核心技术研发工作。陈运文博士毕业于复旦大学计算机系。

看过他2篇文章,其中有和我分析百度F1-6的方法之一相似。所以仔细注解了陈博使用搜索点击模型的内容。

以下双下划线后的内容均为鄙人的注解。

ClickModel的使用

使用搜索点击模型

用户的搜索点击模型(ClickModel)其实是一个非常大的话题,涉及到用户查询满意度的建模和分析。

百度真实网页权重里有一个satisfyScore(满意度打分),所以搜索点击行为不仅是提升点击权重,连带提高满意度权重。

在今天的搜索引擎技术中,通过ClickModel衍生出了众多的功能,包括搜索满意度的自动监控、搜索结果的自动调权调序等。

这里提到了搜索点击模型会自动改变排名。

而这些技术的出发点都是UserBehavior(用户行为)数据。

在Session信息(asearchsession一次搜索周期信息)里,用户的点击行为往往能提供丰富的信息:

百度网页搜索一次完整的搜索周期包含大量信息,有查询词,搜索结果的标签,标题,链接,高度、宽度,模版,排名,数据策略ID,点击校验参数,时间戳,官网认证标识,何种搜索结果,随机样本ID,查询ID,付费名,是否百度首页,是否登录百度账号,搜索形式,搜索框位置,字符编码,输入耗时等几十项信息。

在搜索结果从上至下被用户浏览的过程中,当被点击的结果中间出现了跳跃,例如Query1(第1次搜索)对应的自然排序结果是Result1(第1个结果),Result2(第2个结果),Result3(第3个结果)…,但是如果大量用户的点击是Result1,Result3,则Result2的相关性可能存在问题;

意思是点击第1、3个结果,不但可以提升第1、3个结果的权重,还可以降低第2个结果的权重。所以对付竞争对手快速点击一个办法是大量点击其他结果。

另外一种情况是,如果同一个Query产生了一次点击后,间隔一段时间后再次出现了对后面结果的点击,则也许说明了之前结果的满足度不够高。

一种在搜索结果页降低竞争对手满意度权重的方式,先点击对方的结果,隔段时间再点自己网站的结果。

在同一个Session里,用户发生主动Query变换(或称为QueryRe-write)也往往能说明问题,前面的Query如果搜索结果质量不高,则很多用户会选择修改查询词,此时前面被点击的Title(搜索结果标题)重要程度往往不如后续的Title,等等各类场景很丰富。

另一种一石二鸟的办法是先搜索一个竞争对手排名好的关键词,点了之后,更换另一个自己网站的相关词点击,亦可降低对方网站的满意度。

以上各类的ClickModel思想虽然在实际线上系统中被广泛运用,但竞赛中没有提供更详细的信息,包括点击结果在搜索中的排序(对于分析点击模型至关重要)、点击发生的时间、点击停留间隔、用户的Cookieid/Userid(暂存用户信息ID/用户ID)等,限制了发挥,真实应用里,通过ClickModel来对用户查询意图的把握,应该可以更深入的进行挖掘。

很久没写SEO技术的文章了,这次看到陈运文博士获得CIKMCompetition2014(2014年国际数据挖掘竞赛)冠军,觉得在NLP(自然语言处理)成熟以前,传统的算法仍然比较重要。

目录
相关文章
|
6月前
|
存储 搜索推荐 安全
Onlyfans如何使用搜索功能?Onlyfans如何搜索博主?如何在OnlyFans搜索HongkongDoll
本文是一份全面的指南,旨在帮助读者了解如何在OnlyFans平台上有效使用搜索功能,尤其是如何找到特定的博主,比如HongkongDoll。我们深入探讨了OnlyFans的搜索机制,包括其对用户隐私的重视以及因此带来的搜索限制。文章详细介绍了三种主要的搜索方法:使用OnlyFans的官方搜索服务、通过社交媒体链接进行跳转、以及利用第三方搜索引擎如OnlySearch。
|
6月前
|
数据采集 存储 API
手动给docusaurus添加一个搜索
如果algolia不能自动配置的话,我教你手动给docusaurus添加一个搜索
手动给docusaurus添加一个搜索
|
小程序 JavaScript
小程序搜索弹出搜索内容功能(模糊查询)
小程序搜索弹出搜索内容功能(模糊查询)
74 0
|
小程序 数据库
小程序搜索功能,云开发搜索,小程序云开发模糊搜索,同时搜索多个字段
小程序搜索功能,云开发搜索,小程序云开发模糊搜索,同时搜索多个字段
276 0
|
数据采集 搜索推荐 前端开发
11、搜索服务
根据分类、关键字匹配课程名称,课程内容、难度等级搜索,搜索方式为全文搜索,搜索节点分页显示。
102 0
|
搜索推荐 安全 Java
搜索
搜索
120 0
|
机器学习/深度学习 算法 搜索推荐
DARTS+:DARTS 搜索为何需要早停?
近日,华为诺亚 方舟实验室的作者们提出一种可微分的神经网络架构搜索算法 DARTS+,将早停机制(early stopping)引入到原始的 DARTS[1] 算法中,不仅减小了 DARTS 搜索的时间,而且极大地提升了 DARTS 的性能。相关论文《DARTS+: Improved Differentiable Architecture Search with Early Stopping》已经公开(相关代码稍后也会开源)。
229 0
DARTS+:DARTS 搜索为何需要早停?
|
存储 缓存 自然语言处理
一切为了搜索
Elasticsearch是​ 基于Lucene搜索架构的一个分布式、RESTful 风格的搜索和数据分析引擎