吴星搜索点击模型简释-阿里云开发者社区

吴星搜索点击模型简释

2017-12-22 1891

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 先来段华师大MBA校教育中心的对原文作者的介绍。陈运文是盛大文学首席数据官(CDO)，在加入盛大集团之前，他曾在百度公司搜索技术部任职，负责百度的语义分析算法、搜索数据分析、相关性排序等核心技术研发工作。

先来段华师大MBA校教育中心的对原文作者的介绍。

陈运文是盛大文学首席数据官(CDO)，在加入盛大集团之前，他曾在百度公司搜索技术部任职，负责百度的语义分析算法、搜索数据分析、相关性排序等核心技术研发工作。陈运文博士毕业于复旦大学计算机系。

看过他2篇文章，其中有和我分析百度F1-6的方法之一相似。所以仔细注解了陈博使用搜索点击模型的内容。

以下双下划线后的内容均为鄙人的注解。

ClickModel的使用

使用搜索点击模型

用户的搜索点击模型(ClickModel)其实是一个非常大的话题，涉及到用户查询满意度的建模和分析。

百度真实网页权重里有一个satisfyScore(满意度打分)，所以搜索点击行为不仅是提升点击权重，连带提高满意度权重。

在今天的搜索引擎技术中，通过ClickModel衍生出了众多的功能，包括搜索满意度的自动监控、搜索结果的自动调权调序等。

这里提到了搜索点击模型会自动改变排名。

而这些技术的出发点都是UserBehavior(用户行为)数据。

在Session信息(asearchsession一次搜索周期信息)里，用户的点击行为往往能提供丰富的信息：

百度网页搜索一次完整的搜索周期包含大量信息，有查询词，搜索结果的标签，标题，链接，高度、宽度，模版，排名，数据策略ID，点击校验参数，时间戳，官网认证标识，何种搜索结果，随机样本ID，查询ID，付费名，是否百度首页，是否登录百度账号，搜索形式，搜索框位置，字符编码，输入耗时等几十项信息。

在搜索结果从上至下被用户浏览的过程中，当被点击的结果中间出现了跳跃，例如Query1(第1次搜索)对应的自然排序结果是Result1(第1个结果),Result2(第2个结果),Result3(第3个结果)…,但是如果大量用户的点击是Result1,Result3,则Result2的相关性可能存在问题；

意思是点击第1、3个结果，不但可以提升第1、3个结果的权重，还可以降低第2个结果的权重。所以对付竞争对手快速点击一个办法是大量点击其他结果。

另外一种情况是，如果同一个Query产生了一次点击后，间隔一段时间后再次出现了对后面结果的点击，则也许说明了之前结果的满足度不够高。

一种在搜索结果页降低竞争对手满意度权重的方式，先点击对方的结果，隔段时间再点自己网站的结果。

在同一个Session里，用户发生主动Query变换(或称为QueryRe-write)也往往能说明问题，前面的Query如果搜索结果质量不高，则很多用户会选择修改查询词，此时前面被点击的Title(搜索结果标题)重要程度往往不如后续的Title，等等各类场景很丰富。

另一种一石二鸟的办法是先搜索一个竞争对手排名好的关键词，点了之后，更换另一个自己网站的相关词点击，亦可降低对方网站的满意度。

以上各类的ClickModel思想虽然在实际线上系统中被广泛运用，但竞赛中没有提供更详细的信息，包括点击结果在搜索中的排序(对于分析点击模型至关重要)、点击发生的时间、点击停留间隔、用户的Cookieid/Userid(暂存用户信息ID/用户ID)等，限制了发挥，真实应用里，通过ClickModel来对用户查询意图的把握，应该可以更深入的进行挖掘。

很久没写SEO技术的文章了，这次看到陈运文博士获得CIKMCompetition2014(2014年国际数据挖掘竞赛)冠军，觉得在NLP(自然语言处理)成熟以前，传统的算法仍然比较重要。

吴星搜索点击模型简释

热门文章

最新文章

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

吴星搜索点击模型简释

热门文章

最新文章

相关电子书

相关实验场景