2.3 确定搜索者意图并交付相关、新鲜的内容
现代商业搜索引擎依赖信息检索(Information Retrieval,IR)科学。这门学科从20世纪中叶就已经存在,当时的检索系统配备在图书馆、研究设施和政府实验室等机构的电脑系统上。搜索系统开发的早期,IR科学家意识到大部分搜索功能都由两个关键部分组成:相关性和重要性(在本章前面已经定义)。为了度量这些因素,搜索引擎进行文档分析(包括跨文档概念的语义分析)和链接(或引用)分析。
2.3.1 文档分析和语义联系
在文档分析(document analysis)中,搜索引擎关注于文档重要区域中是否找到搜索词,这些区域包括标题、元数据、标题标记和正文。它们还试图根据文档分析以及其他许多种因素自动度量文件质量。
对于当今的搜索引擎而言,仅仅依靠文档分析是不够的,所以它们还关注语义的联系性。语义联系(semantic connectivity)指的是常常相互关联的单词或者短语。例如,如果你看到Aloha译注1一词,就会联想到夏威夷,而不是佛罗里达。搜索引擎主动地构建自己的同义词库和词典,帮助它们确定某些词和主题之间的关联。通过扫描自己的大量Web内容数据库,搜索引擎能够使用模糊集合理论和某些公式将词语联系起来,开始像人类一样理解网页/网站。
专业的SEO人员不需要使用语义联系度量工具来优化网站,但是高级的从业者会追求每一个可供利用的因素,语义联系度量对以下这几个方面可能有所帮助。
度量目标的关键短语。
度量有关某个主题的页面上应该包含的关键短语。
度量其他高排位网站/网页上文本之间的关系。
寻找提供“相关”主题链接的页面。
这些材料来源的技术性很强,但是SEO专家只需要了解获取重要信息的原则。重要的是,虽然IR领域包含数千个技术性用语,这些术语往往难以理解,但是即使是SEO新手也能够分析和理解。
下面是IR领域的常见搜索类型。
相近搜索
相近搜索用搜索短语的顺序寻找相关的文档。例如,当搜索“sweet German mustard”(德国甜芥末)时,你指定的只有一个准确的相近搜索。如果去掉引号,搜索词的相近性对搜索引擎仍然很重要,但是搜索引擎返回的内容就不会精确匹配搜索短语,例如,Sweet Mustard—German。
模糊逻辑
从技术上讲,模糊逻辑指的是无法仅用真/假来区分的逻辑,常见的例子之一是某天是不是晴天(例如,有50%的云,是否仍然可以称为晴天)。模糊逻辑是搜索引擎用于检测和处理拼写错误的手段之一。
布尔搜索
布尔搜索使用布尔运算符,如AND、OR和NOT。这类逻辑用于扩展或者限制搜索中返回的文档。
搜索词加权
搜索词加权指的是特定搜索词对查询的重要程度。原理是为特定的词语赋以比其他词更高的权重,以得到更好的搜索结果。例如,在查询中的单词the得到的权重很小,因为它几乎在所有英语文档中都会出现,没有什么独特性,对文档的选择没有任何帮助。
IR模型(搜索引擎)使用模糊集合理论(Lotfi Zadeh博士于1969年创立的模糊逻辑分支)发现两个单词之间的语义联系。和用同义词库或者词典推断两个词是否相关不同,IR系统可以使用巨大的内容数据库推测出词语之间的关系。
这一过程听上去似乎很复杂,但是原理却很简单。搜索引擎需要依赖机器逻辑(真/假,是/否等)。机器逻辑对于人有一些优势,但是不像人那样擅长解决某些类型的问题。对人来说很直观的事情,对于计算机来说却很难理解。例如,桔子和香蕉都是水果,但是两者不都是圆的,这一点对人来说很直观。
对于机器来说,要理解这一点以及其他类似的概念,语义联系是关键。Web上的大量人类知识可以在系统的索引中获得,并从中分析人类已经建立的联系。因此,机器能够通过扫描索引中出现的“香蕉”和“桔子”,注意,“圆形”和“香蕉”不经常同时出现,而“桔子”和“圆形”常常一起出现,从而确定桔子是圆的,而香蕉不是圆的。
这就是模糊逻辑的用武之地。使用逻辑集合理论帮助计算机通过度量两个词同时出现的频率和语境,就能理解两个词的相关性。
在此基础上扩展起来的相关概念之一是潜在语义分析(Latent Semantic Analysis,LSA)。思路是通过对几十亿个各种网页(索引)的研究,搜索引擎能够“学习”到哪些词是相关的,哪些概念相互之间有联系。
例如,利用LSA,搜索引擎能够发现前往“zoo”(动物园)的“trips”(旅行)往往包含“viewing wildlife”(观看野生动物)和“animals”(动物),这可能是“tour”(旅行)的一部分。
在Google上尝试搜索“~zoo ~trips”(波浪号是一个搜索运算符,本章后面将有更多的相关内容)。注意,返回结果中粗体的单词与上一段中提到的那些单词相符。Google识别出索引中经常共同出现(一起出现、在同一个网页中出现或者位置接近)的词语,并将“相关”的词语显示为粗体。
有些形式的LSA计算成本太高,无法在实践中使用。例如,目前的搜索引擎无法像较新的MIT学习型计算机那样聪明地“学习”。例如,它们无法通过索引学习到“斑马”和“老虎”都是带有斑纹的动物,尽管它们可能发现“斑纹”和“斑马”比“斑纹”和“鸭子”在语义上有更多联系。
潜在语义索引(Latent Semantic Indexing ,LSI)更进一步,使用语义分析来识别相关的网页。例如,搜索引擎可能注意到某个网页谈及doctor(医生或者博士),另一个网页谈及physicians(医生),并且根据这些页面中常见的其他单词确定这些页面之间的关系。结果是,引用doctor的页面在搜索physician时也可能出现。
搜索引擎在此类技术上的投资已经持续了很多年。例如,2003年4月,Google收购了以语义文本处理技术闻名的Applied Semantics公司。这种技术现在用于Google的AdSense广告软件,而且很可能用于Google的核心搜索算法。
从SEO方面看,这些应用让我们认识到搜索引擎是如何发现网络上的单词、短语和概念之间的联系的。随着语义联系越来越成为搜索引擎算法的重要组成部分,可以预见,页面、网站和链接的主题将会越来越受到重视。我们应该认识到,未来搜索引擎理解概念主题以及发现不适合网站结构的内容、链接和页面的能力将更为重要。
2.3.2 度量内容质量和用户参与度
搜索引擎也试图度量网站内容的质量和独特性。它们可能使用的方法之一是评估文档本身。例如,如果网页有许多拼写和语法错误,就说明对于页面投入的编辑精力不够。
搜索引擎也能分析文档的阅读水平(reading level)。流行的公式之一是Flesch-Kincaid分级可读性公式(Flesch-Kincaid Grade Level Readability Formula),该公式考虑平均单词长度和句子中的单词数量,确定理解句子所需要的教育水平。想象一个场景:网页上销售的产品是儿童玩具,而计算出来的阅读水平说明,具备高等院校水平的人才能阅读该页面。这也是拙劣的编辑工作的另一个表现。
搜索引擎用于评估网页质量的其他方法是度量实际的用户交互。例如,如果访问网页的大量用户在点击搜索结果之后立即返回搜索引擎,并且点击下一个结果,这就是代表网页质量不佳的一个强有力指标。
网站的参与度在2011年2月23日Google发行熊猫更新(Panda Update)时开始成为排名因素。Google已经访问了大量可用于度量访问者与网站交互情况的数据源。这些数据源包括以下几种。
与网页搜索结果的交互
例如,如果一个用户点击SERP列表到达你的网站,点击“后退”按钮,然后点击同一组搜索结果中的另一个结果,那可以看做是一个负面的排名信号。相反,如果SERP中排名在你的网站之下的结果点击次数超过你,那也可以看做你的网站的负面排名信号和那些网站的正面排名信号。搜索引擎是否使用这些信号以及这些信号的权重尚不得而知。
Google Analytics
很难知道有多少网站运行Google Analytics。 immeria.net于2008年进行的网站调查显示,Google Analytics具有59%的市场份额。而Metric Mail Blog检查了Alexa中的前100万个网站,发现其中大约50%使用了Google Analytics 。简言之,Google能够收集世界上一大半网站的详细数据。
Google Analytics能够向Google提供丰富的网站数据,包括:
跳出率(bounce rate)
仅访问网站上一个页面的访问者比例。
网站停留时间
用户在网站上花费的平均时间。注意,Google Analytics只在每个页面加载时接收信息,所以如果访问者只查看一个页面,它无法知道在该页面上花费的时间。更精确地说,这一衡量指标告诉你在加载第一个页面和加载最后一个页面之间的平均时间,但是不考虑访问者在最后一个页面上花费的时间。
每个访问者查看的页面数
网站的每个访问者所查看页面数的平均值。
Google 工具栏
不知道有多少用户使用Google工具栏,但是本书作者相信,这个数字肯定多达数百万。Google能够跟踪这些用户的整个上网行为。和Google Analytics不同,Google工具栏能够度量从用户初次访问某个网站到用户从不同网站加载页面之间的时间,也能计算跳出率和每个访问者查看的页面数。
Google +1按钮
2011年4月,Google开始公测一项新功能——+1按钮。用户可以利用这项功能,在搜索结果中直接(或者在网页上)为网页“投票”,从而指明特定搜索查询中他们最喜爱的网站。
Chrome Blocklist扩展
2011年2月,Google发行了Chrome Blocklist扩展。该扩展为Chrome浏览器的用户提供了指出他们所喜爱的搜索结果的一种手段。
Google即时预览(Google Instant Preview)
Google在其搜索结果中还提供了即时预览功能。用户在确定所点击的搜索结果之前能够看到网页的略图。如果用户查看页面预览之后决定不点击它,效果就与负面的投票相同。
Google阅读器
Google提供了世界最流行的RSS源阅读器,该阅读器能够提供许多最吸引人的数据。
Goo.gl
2010年9月,Google发行了自己的URL缩短服务。这一工具使Google即使在Google Web爬行器无法前往的封闭环境中,也能看到共享和点击的内容。
最重要的因素可能是你的网站与竞争者的差别。如果你的网站有较好的参与度,这一指标很可能被看做高质量的象征,从而可能大大提升你的排名。搜索引擎对这类信号的使用方法很少公开,所以上述观点只是本书作者对Google在这一领域所作所为的推测。社会化和用户参与度排名因素在第8章中将更详细地加以讨论。
2.3.3 链接分析
在链接分析中,搜索引擎度量对一个网站或者页面的链接,以及这些链接者对网站/页面的评论。搜索引擎也能很好地掌握谁与谁之间有联系(通过历史链接数据、网站注册记录和其他来源),根据链接网站的权威性确定网站的可信度,以及关于页面所在网站的上下文数据(谁链接到该网站,他们对网站的评论等)。
链接分析远比计算网页或者网站的链接数量复杂得多,因为链接并不都是平等的。来自高权威性网站的高权威性网页的链接比其他权威性较低的链接更重要(一个链接的价值可能比另一个链接高千万倍)。网站或者网页的权威性通过链接模式分析和语义分析来确定。
例如,你可能对宠物狗美容网站感兴趣。搜索引擎可以用语义分析确定关注宠物狗美容主题的一组网页。然后,搜索引擎能够确定这些网站中哪一个拥有最多来自其他网站的链接。这种网站很可能比其他网站更具权威性。
实际的分析当然更复杂。例如,想象一下有5个宠物狗美容网站,它们都有许多来自同一主题的网站链接,如:
网站A有213个相关主题链接。
网站B有192个相关主题链接。
网站C有203个相关主题链接。
网站D有113个相关主题链接。
网站E有122个相关主题链接。
此外,网站A、B、D和E相互之间都有链接,但是它们都没有指向网站C的链接。实际上,网站C看似有许多来自其他主题相关链接的页面,但是这些页面本身没有多少外来的链接。在这种情况下,网站C就不是一个权威性的网站,因为正确的网站没有链接它。
这种相关性网站的聚合称作链接邻居(link neighborhood)。你所在的地域说明了网站的主题,而来自这些邻居的链接数量和质量说明了你的网站对于该主题的重要性。
搜索引擎对链接邻居评估的依赖程度尚不清楚,仍然认为来自非相关页面的链接有助于目标页面的排名。然而,来自相关网站的链接应该比非相关网站的链接更重要这一基本思路仍然是成立的。
确定链接价值的另一个因素是链接的实现方式以及位置。例如,链接本身使用的文本(也就是用户为前往你的网页所点击的实际文本)对搜索引擎来说也是很强的信号。
上面提到的文本称作锚文本(anchor text),如果该文本富含关键词(与你的目标搜索关键词相关的关键词),它对于搜索引擎排名的作用就要大于关键词较少的链接。例如,对于宠物狗美容沙龙网站,“Dog Grooming Salon”(宠物狗美容沙龙)这一锚文本的价值要高于“Click here”(点击这里)。如果你得到使用“Dog Grooming Salon”锚文本的10 000个链接,而其他链接很少,这看上去就很不自然,可能导致排名方面的问题。
连接价值的语义分析并不止于锚文本。例如,如果一个与狗或者宠物狗美容无关的网站上出现“宠物狗美容沙龙”锚文本,链接的价值就不如有关宠物狗美容的页面。搜索引擎也会关注围绕该链接的页面上的内容,以及整体上下文以及提供链接的网站的权威性。
这些因素都是链接分析的组成部分,将在第7章中深入讨论它们。
2.3.4 评估社交媒体信号
Web上社交媒体的兴起已经产生了许多新的信号,搜索引擎可以考虑这些信号。Facebook、Twitter 和 Google+ 已经为用户带来了分享内容或者评估内容价值的新方法。例如,用户可以用Facebook发布新闻源中他们喜欢的内容,或者与他们的朋友分享这些内容。他们还可以用Facebook Like按钮指出自己认为有价值的内容。
Google+和Twitter还提供共享内容的方法,Google还有+1按钮——它和Facebook Like按钮的操作方式类似。所有这些社交行为的度量和处理在一定程度上和链接类似。分享次数越多或者用户点击Like或者+1按钮次数越多的内容,搜索引擎就会认为它们的价值越高。2012年1月,Google发布了Google search, plus Your World,这是一个重要的革新:根据你在Google+的参与情况提供高度个性化的结果。结果是,在Google+1上共享或者使用了+1按钮的内容,在Google的搜索结果中排名将会得到显著提高。
作者的权威性或者影响也是需要考虑的重要概念。如果公认的专家共享一些内容,比起不知名人士的共享,这可以看做更强有力的赞同。以Twitter为例,搜索引擎可以查看粉丝的多少以及他们自己所关注的人的多少,确定人们的影响力水平。如果某人有数十万粉丝,而仅仅关注几百人,而另外一个人有大量粉丝,但是同时也关注许多人,两者相比,可以认为前者比后者更具影响力。图2-22展示了Twitter上Oprah Winfrey译注2的极端情况。
图2-22:Oprah Winfrey在Twitter上的粉丝数量和他所关注的人数
搜索引擎也考虑个人的影响领域。例如,Oprah可能在许多方面有卓越的影响力,但是他对高级PHP编程技术的意见可能并不重要。
必应和Facebook有伙伴关系,Facebook允许必应访问关于用户行为的数据,这些数据影响必应搜索结果中的排名和形式。例如,如果你的朋友“喜欢”(按下Like按钮)特定内容,它在你的搜索结果中可能出现在较高的位置,必应将在结果的旁边显示你朋友的照片。这很有意义,因为我们知道,人们珍视来自朋友的推荐。
Google 不能用同样的方式访问Facebook数据,但是它有自己的社交网络Google+及其伙伴——+1按钮。利用Google 的Search, plus Your World,它以与必应使用Facebook数据相似的方式使用社交网络数据,而且由于Google拥有Google+网络,因此它能够根据数据对搜索结果进行更多的定制。Google还能看到你的其他关系,例如,哪些人在你的Gmail地址簿中。
社交信号在搜索排名和显示中越来越重要,这将在第8章中详加介绍。
2.3.5 问题词、消除歧义及多样化
对于搜索引擎来说,某些词语不断带来难题。最大的难题之一是消除歧义。例如,当有人输入“boxers”一词时,他的意思到底是职业拳击手、狗的品种还是短裤的类型?译注3同样,“jaguar”译注4一词指的可能是美洲虎、汽车品牌、足球队、操作系统,也可以是吉他。用户的意思到底是什么?
搜索引擎不断地处理这类模棱两可的查询。上两个例子在翻译上有本质的问题,但是需要解决的歧义远远不只这些极端的情况。例如,如果有人查询“汽车”(cars),他的意图是:
想阅读汽车评论?
想看车展?
想买车?
想了解新的汽车技术?
对“汽车”的查询过于笼统,仅仅根据这一查询无法弄清搜索者的真正意图。搜索引擎的处理方法之一是了解同一搜索者过去进行的查询,这些历史可能提供关于用户意图的其他线索。
第1章已经简短地讨论了这种“自适应搜索”。
搜索引擎的另一解决方案是提供多样化的结果。例如,图2-23展示了一个宽泛的搜索——对“GDP”一词的查询。
由此带出了一个重要的排名概念。在图2-23中,严格的相关性和链接流行程度分析不会将Investopedia.com排在结果的第一页中,但是多样性的需求造成该页排名的提升。
严格的相关性和基于重要性的排名系统可能显示讨论美国GDP的各种政府网站。但是,大部分用户可能满足于已经显示的政府页面,对于这些用户来说,显示更多同类网页不会提高满意度。
引入多样性还使Google向那些寻找政府页面上不同内容的人提供满意的答案。Google的测试显示,这种基于多样性的方法在用户中得到了更满意的结果。
例如,非多样化的结果可能在SERP上显示较低点击率的结果,更多的查询调整,甚至更高比例的相关后续搜索。
图2-23:多样化查询结果示例
Google选择不同的途径,认真地处理歧义问题。图2-24是搜索“application”(应用、申请)的结果。
图2-24:消除歧义的搜索查询
图2-24中带有横线的是消除歧义的结果,往往出现在Google认为用户搜索的是查询所不能产生的结果时,特别是搜索短语非常宽泛的时候。
有意在结果算法中引入多样性是明智的,能够增强下面这些查询的满意度:
公司名称(搜索者可能想得到正面和负面的报道,以及官网的域名)。
产品搜索(常规情况下,电子商务类的结果将会占满SERP,但是Google尝试提供一些评论和非商业性的相关内容)。
新闻和政治性搜索(显示一个问题的“各个方面”是明智的,不能仅显示左翼或者右翼的博客,这些博客都竭力获取链接)。
搜索引擎还根据用户的搜索历史或者过去的行为模式个性化搜索结果。例如,如果搜索者有搜索纸牌游戏的历史,当他搜索“dominion”时,搜索引擎可能选择将与Dominion纸牌游戏相关的结果放在Dominion电力公司之前的位置上。
新鲜度何时重要
很多时候对于搜索引擎而言,从经过时间考验的老信息源中得到的结果更有意义。但是,有时候返回结果应该来自新的信息源。
例如,当发生重大新闻(如地震)时,搜索引擎在几秒钟内就开始接收查询,而第一篇文章通常在15分钟内出现在Web上。
在这类情况下,必须近乎实时地发现和索引新信息。Google将这一概念称作QDF(Query Deserves Freshness,意为查询应该返回新鲜信息)。根据《纽约时报》的文章,QDF考虑如下因素:
搜索量
新闻报道数量
博客报道数量
来自Google+、Facebook、Twitter和其他网站的社会化信号
工具栏数据(可能)
QDF适用于最新的新闻报道和其他情况,例如,获得大量搜索和媒体报道的热门折扣或者新产品的发布。
2.3.6 搜索算法失败的一些原因
如本章所述,搜索引擎能够完成奇妙的工作。但是,有时候这个过程并不像我们想象的那么好。部分原因是用户常常输入不能提供其意图的搜索词(例如,如果他们搜索“汽车”:他们到底是希望买车、阅读评论、学习驾驶技术、学习汽车的设计,还是其他的什么?)。另一个原因是有些词语有多重含义(例如,jaguar既是一种动物,也是一种汽车、一种吉他,复数形式还表示一个足球队)。