先来段华师大MBA校教育中心的对原文作者的介绍。
陈运文是盛大文学首席数据官(CDO),在加入盛大集团之前,他曾在百度公司搜索技术部任职,负责百度的语义分析算法、搜索数据分析、相关性排序等核心技术研发工作。陈运文博士毕业于复旦大学计算机系。
看过他2篇文章,其中有和我分析百度F1-6的方法之一相似。所以仔细注解了陈博使用搜索点击模型的内容。
以下双下划线后的内容均为鄙人的注解。
ClickModel的使用
使用搜索点击模型
用户的搜索点击模型(ClickModel)其实是一个非常大的话题,涉及到用户查询满意度的建模和分析。
百度真实网页权重里有一个satisfyScore(满意度打分),所以搜索点击行为不仅是提升点击权重,连带提高满意度权重。
在今天的搜索引擎技术中,通过ClickModel衍生出了众多的功能,包括搜索满意度的自动监控、搜索结果的自动调权调序等。
这里提到了搜索点击模型会自动改变排名。
而这些技术的出发点都是UserBehavior(用户行为)数据。
在Session信息(asearchsession一次搜索周期信息)里,用户的点击行为往往能提供丰富的信息:
百度网页搜索一次完整的搜索周期包含大量信息,有查询词,搜索结果的标签,标题,链接,高度、宽度,模版,排名,数据策略ID,点击校验参数,时间戳,官网认证标识,何种搜索结果,随机样本ID,查询ID,付费名,是否百度首页,是否登录百度账号,搜索形式,搜索框位置,字符编码,输入耗时等几十项信息。
在搜索结果从上至下被用户浏览的过程中,当被点击的结果中间出现了跳跃,例如Query1(第1次搜索)对应的自然排序结果是Result1(第1个结果),Result2(第2个结果),Result3(第3个结果)…,但是如果大量用户的点击是Result1,Result3,则Result2的相关性可能存在问题;
意思是点击第1、3个结果,不但可以提升第1、3个结果的权重,还可以降低第2个结果的权重。所以对付竞争对手快速点击一个办法是大量点击其他结果。
另外一种情况是,如果同一个Query产生了一次点击后,间隔一段时间后再次出现了对后面结果的点击,则也许说明了之前结果的满足度不够高。
一种在搜索结果页降低竞争对手满意度权重的方式,先点击对方的结果,隔段时间再点自己网站的结果。
在同一个Session里,用户发生主动Query变换(或称为QueryRe-write)也往往能说明问题,前面的Query如果搜索结果质量不高,则很多用户会选择修改查询词,此时前面被点击的Title(搜索结果标题)重要程度往往不如后续的Title,等等各类场景很丰富。
另一种一石二鸟的办法是先搜索一个竞争对手排名好的关键词,点了之后,更换另一个自己网站的相关词点击,亦可降低对方网站的满意度。
以上各类的ClickModel思想虽然在实际线上系统中被广泛运用,但竞赛中没有提供更详细的信息,包括点击结果在搜索中的排序(对于分析点击模型至关重要)、点击发生的时间、点击停留间隔、用户的Cookieid/Userid(暂存用户信息ID/用户ID)等,限制了发挥,真实应用里,通过ClickModel来对用户查询意图的把握,应该可以更深入的进行挖掘。
很久没写SEO技术的文章了,这次看到陈运文博士获得CIKMCompetition2014(2014年国际数据挖掘竞赛)冠军,觉得在NLP(自然语言处理)成熟以前,传统的算法仍然比较重要。