《谷歌语义搜索》一导读-阿里云开发者社区

开发者社区> 人工智能> 正文

《谷歌语义搜索》一导读

简介: 语义搜索有着终结这一轮回的前提和前景。理解语义搜索的最好方式是将其比作一个探照灯,打探了 Web 上所有不同的数据结点,并跟随它们绘制了一幅画面来刻画它们是如何连接的,它们属于谁,谁创建了它们,他们还创建了其他什么,他们是谁,他们曾经是谁以及他们是干什么的。


64372b59ffabcef15a0d7e69a6014b3bcdb5ac83

前 言

谷歌语义搜索
搜索正发生着变化。当然这不是一个新的话题。从某个角度来说,它从第一天起就在一条不断变化的轨迹上运动。然而如今,这条轨迹的弧线已经以更快的速度和更陡的角度来匹配Web。

事实上,不能认为搜索与 Web 是各自独立的,没有了搜索的 Web 无法正常运转。这种共生关系带来了各种各样的问题,因为它成为了一种推拉效应的一部分,其中,Web表示那些在其中积极工作的人们,他们想要将所有错误的东西都推出去,而搜索则想要把所有东西都拉进来。

当所有事物都进入 Web 之后,这场索引信息的争斗转变为将其正确分类的争斗。因为 Web 的增速是如此惊人,任何分类都必须是机器驱动的并具有可伸缩性(scalable),这只能以两种方式发生:A,有人的辅助;B,没有人的辅助。

我们从马尔可夫链(Markov chain)和布尔算法(Boolean algorithm)非常突然地切换到了不断变化的伦理领域和对做“正确”或“错误”的事的意愿上来。这里的假设是,一旦某个事物可以被解构并且其工作方式可以被理解,人们就可以试着借势(gaming it)来优化它的效率。

这正是在搜索上发生的事情。当搜索因部分借助人力而有助于理解那些被编入索引的数据应该被如何分类之后,它便基于有关借势的必要技术创造了一个完整的产业。

当搜索引擎用更复杂的方式来反击我们借势其算法在 Web 上获得更大曝光度(visibility)的尝试之后,“我们”和“他们”之间的推拉效应就被强化了。搜索引擎更新的每个周期都会带来“阵痛”,并造成曝光度的损失,因此,这不得不通过寻找借势搜索的新方法来应对,如此往复。

语义搜索有着终结这一轮回的前提和前景。理解语义搜索的最好方式是将其比作一个探照灯,打探了 Web 上所有不同的数据结点,并跟随它们绘制了一幅画面来刻画它们是如何连接的,它们属于谁,谁创建了它们,他们还创建了其他什么,他们是谁,他们曾经是谁以及他们是干什么的。

语义搜索的最基本层面是将含义(meaning)用于 Web 上不同数据结点之间的连接,让我们得以对它们建立起前所未有的清晰理解。这是颠覆性的。Web由数据组成,数据则被大量性(volume)、高速性(velocity)、多样性(variety)和真实性(veracity)这些概念所支配,一旦我们找到一种方式来完满地应对这四个概念,我们就已经解决了搜索问题。

目前我们还没有做到。语义搜索应用的新动态在这四个概念之间徘徊,它们中任何两者之间的平衡都远没有被解决,更不要提全部四个了。如果解决了如何索引每分钟都在生成的大体量数据这一问题,那么如何用一种满足时间需求的方式来对其分类就变得至关重要了。在分类和分优先级的速度问题(即速率)被解决后,内容的多样性就成为了一个问题。

在所有这三个方面以及搜索结果中的质量问题都最终得以解决之后,起源和信任(即真实性)问题就抬起了它丑陋的头。接下来,非常突然地,其他三个概念中的每一个都再次成为问题:你该如何来验证以如此惊人的速度涌入的数据、快速地评价它并成功地应对它的所有变种呢?

答案在于增量地解决。语义搜索不同于过去我们拥有过的任何技术,它可以缓存它所计算出的所有特征,因而它所照亮的数据结点在它离开之后不会再回到黑暗之中以等待再次照亮。这样它就在进行一种学习,并变得愈发聪明、愈发敏捷、愈少犯错误和愈可靠,也变得愈难被借势利用。

本书谈论的是语义搜索,即关于它是什么、它怎样运转以及你现在可以做些什么来从中获益。写这本书时我主要关注的是谷歌,有三个原因。首先,谷歌在搜索的语义索引方面有显著的进展。其次,Google+社交网络在帮助网站提高在线曝光度方面扮演了一个重要角色,如果低估了它,就会在搜索中丧失一个巨大的机遇。再次,谷歌是世界上最主要的搜索引擎,占据了 95%的全球移动搜索市场和超过80%的全球桌面搜索市场。如果不去关注它,就没有任何商业意义了。

语义搜索用很多方式将我们带回到了 Web 的那个黄金年代—就在线的工作而言,只要你有工作的热情、自信和精力,一切皆有可能。

我们又面临这样的景况,对此我很兴奋。我希望这本书成为你数字旅途的指南,但我更希望它成为你亟需的一块跳板,使你得以让自己的工作在世界上以数码或其他形式留下一丝痕迹。

David Amerland

2013年,曼彻斯特

目 录

第1章 什么是语义搜索
1.1 向语义搜索迁移
1.2 搜索如何工作
1.3 语义搜索如何工作
1.4 没法再借势了
1.5 语义搜索准备清单
第2章 什么是知识图谱
2.1 一个知识引擎而非一个搜索引擎
2.2 知识图谱怎样工作
2.3 建立联系
2.4 你的业务与知识图谱
2.5 知识图谱准备清单
第3章 搜索引擎优化的新发展
第4章 信任和作者排序
第5章 什么是TrustRank
第6章 内容如何成为营销
第7章 社交媒体营销和语义搜索
第8章 不再有谷歌的“第一”页
第9章 影响的传播和语义搜索
第10章 实体抽取和语义网
第11章 语义搜索的四个V
第12章 搜索如何变为无形
参考文献

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
人工智能
使用钉钉扫一扫加入圈子
+ 订阅

了解行业+人工智能最先进的技术和实践,参与行业+人工智能实践项目

其他文章