《大规模元搜索引擎技(1)》一第1章 绪言-阿里云开发者社区

开发者社区> 华章出版社> 正文
登录阅读全文

《大规模元搜索引擎技(1)》一第1章 绪言

简介:

本节书摘来自华章出版社《大规模元搜索引擎技(1)》一书中的第1章,作者[美]孟卫一(Weiyi Meng)纽约州立大学宾汉姆顿分校於德(Clement T.Yu)伊利诺伊大学芝加哥分校,更多章节内容可以访问云栖社区“华章计算机”公众号查看

第1章 绪言

近年来,万维网(World Wide Web,环球信息网,环球网,网络或Web)已经成为最大的信息源。世界各地的人们经常使用Web查找所需要的信息。实际上,Web已经成为人们日常生活的重要组成部分。

从1990年Web出现以来,它一直在非常迅速地发展。Web可以分为表层网(surface Web)和深层网(deep Web,也称为深网;
或hidden Web,隐藏网)。表层网是指可以公开和直接访问的,而无须通过注册、登录或搜索引擎接口的Web页面(Web page,或称为网页)集合。通常,每个这样的网页都有一个静态逻辑地址,称为统一资源定位符(Uniform Resource Locator,URL)。表层网中的网页通常被超链接(hyperlink)链接起来。通过超链接,这些网页可以被普通Web爬虫(Web crawler) Web爬虫将在1.3.2节讨论。访问到。表层网的准确大小尚未可知,然而被索引的Web是表层网的一个子集,根据2010年8月http://www.worldwidewebsize.com/的估计,这一子集所含的网页数目可达550亿之多。深网的网页不能被一般的Web爬虫爬取。这些网页包含的Web内容或者不能被公开访问或者是动态生成的。例如,考虑如下情形,某出版商收集了很多以数字格式存放的文章,但是没有把它们放在表层网(即没有针对它们的静态URL),访问它们只能通过出版商的搜索引擎,因而这些文章属于深网。使用数据库系统存储的数据动态生成的网页也属于深网。截至2009年[Zillman,P.,2009],深网的网页大概有1万亿(1 trillion)。表层网和深网都在迅速扩展。

从20世纪90年代早期开始,如何帮助普通用户从Web查找到所需信息已经成为Web技术领域的中心议题之一。这些年来,众多的研究者和开发者创建了许多搜索引擎,它们已经成为深受人们喜爱的可在Web上查找所需信息的工具。搜索引擎通常是拥有一个简单查询接口的易于使用的工具。用户在搜索引擎的查询界面输入其查询——通常是反映用户信息需求的几个单词,然后搜索引擎从其文档或数据库中找出最佳匹配。根据搜索数据的类型,搜索引擎可分为文档驱动的搜索引擎和数据库驱动的搜索引擎。前者搜索文档(网页),而后者通过基于Web的搜索接口从数据库系统搜索数据项。数据库驱动的搜索引擎主要应用于电子商务,如购买汽车或书籍。本书仅关注于搜索文本文档的情形。
由于Web规模巨大且扩张快速,每个搜索引擎仅能覆盖其一小部分。例如,最大的网络搜索引擎之一的Google(http://www.google.com/)能够搜索多达350亿网页(http://www.worldwidewebsize.com/),但这仍然是整个Web的一小部分。人们普遍观察到的一个现象是不同搜索引擎覆盖Web的不同部分,虽然这些部分有重叠。一个增加网络搜索范围的有效方法是组合多个搜索引擎的搜索范围。执行这种组合的系统称为元搜索引擎(metasearch engine)。一个元搜索引擎可视为支持统一访问多个现有搜索引擎的系统。在一个使用元搜索引擎的典型场景中,用户提交查询给元搜索引擎,元搜索引擎将查询传递给它的成员搜索引擎;当元搜索引擎从成员搜索引擎收到返回的搜索结果时,就将这些结果合并为一个排序列表,并将它们展示给用户。
虽然本书主要介绍大规模元搜索引擎技术,但是读者了解典型的搜索引擎如何工作仍然是重要的。搜索引擎的核心技术源自计算机科学领域中所熟知的信息检索(information retrieval)或文本检索(text retrieval)。本章首先简要讨论在Web上查找信息的不同方法,然后回顾文本检索和搜索引擎技术的一些基本概念和算法。本章最后一节将给出本书其余部分的概述。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享: