《大规模元搜索引擎技(1)》一第1章 绪言

简介:

本节书摘来自华章出版社《大规模元搜索引擎技(1)》一书中的第1章,作者[美]孟卫一(Weiyi Meng)纽约州立大学宾汉姆顿分校於德(Clement T.Yu)伊利诺伊大学芝加哥分校,更多章节内容可以访问云栖社区“华章计算机”公众号查看

第1章 绪言

近年来,万维网(World Wide Web,环球信息网,环球网,网络或Web)已经成为最大的信息源。世界各地的人们经常使用Web查找所需要的信息。实际上,Web已经成为人们日常生活的重要组成部分。

从1990年Web出现以来,它一直在非常迅速地发展。Web可以分为表层网(surface Web)和深层网(deep Web,也称为深网;
或hidden Web,隐藏网)。表层网是指可以公开和直接访问的,而无须通过注册、登录或搜索引擎接口的Web页面(Web page,或称为网页)集合。通常,每个这样的网页都有一个静态逻辑地址,称为统一资源定位符(Uniform Resource Locator,URL)。表层网中的网页通常被超链接(hyperlink)链接起来。通过超链接,这些网页可以被普通Web爬虫(Web crawler) Web爬虫将在1.3.2节讨论。访问到。表层网的准确大小尚未可知,然而被索引的Web是表层网的一个子集,根据2010年8月http://www.worldwidewebsize.com/的估计,这一子集所含的网页数目可达550亿之多。深网的网页不能被一般的Web爬虫爬取。这些网页包含的Web内容或者不能被公开访问或者是动态生成的。例如,考虑如下情形,某出版商收集了很多以数字格式存放的文章,但是没有把它们放在表层网(即没有针对它们的静态URL),访问它们只能通过出版商的搜索引擎,因而这些文章属于深网。使用数据库系统存储的数据动态生成的网页也属于深网。截至2009年[Zillman,P.,2009],深网的网页大概有1万亿(1 trillion)。表层网和深网都在迅速扩展。

从20世纪90年代早期开始,如何帮助普通用户从Web查找到所需信息已经成为Web技术领域的中心议题之一。这些年来,众多的研究者和开发者创建了许多搜索引擎,它们已经成为深受人们喜爱的可在Web上查找所需信息的工具。搜索引擎通常是拥有一个简单查询接口的易于使用的工具。用户在搜索引擎的查询界面输入其查询——通常是反映用户信息需求的几个单词,然后搜索引擎从其文档或数据库中找出最佳匹配。根据搜索数据的类型,搜索引擎可分为文档驱动的搜索引擎和数据库驱动的搜索引擎。前者搜索文档(网页),而后者通过基于Web的搜索接口从数据库系统搜索数据项。数据库驱动的搜索引擎主要应用于电子商务,如购买汽车或书籍。本书仅关注于搜索文本文档的情形。
由于Web规模巨大且扩张快速,每个搜索引擎仅能覆盖其一小部分。例如,最大的网络搜索引擎之一的Google(http://www.google.com/)能够搜索多达350亿网页(http://www.worldwidewebsize.com/),但这仍然是整个Web的一小部分。人们普遍观察到的一个现象是不同搜索引擎覆盖Web的不同部分,虽然这些部分有重叠。一个增加网络搜索范围的有效方法是组合多个搜索引擎的搜索范围。执行这种组合的系统称为元搜索引擎(metasearch engine)。一个元搜索引擎可视为支持统一访问多个现有搜索引擎的系统。在一个使用元搜索引擎的典型场景中,用户提交查询给元搜索引擎,元搜索引擎将查询传递给它的成员搜索引擎;当元搜索引擎从成员搜索引擎收到返回的搜索结果时,就将这些结果合并为一个排序列表,并将它们展示给用户。
虽然本书主要介绍大规模元搜索引擎技术,但是读者了解典型的搜索引擎如何工作仍然是重要的。搜索引擎的核心技术源自计算机科学领域中所熟知的信息检索(information retrieval)或文本检索(text retrieval)。本章首先简要讨论在Web上查找信息的不同方法,然后回顾文本检索和搜索引擎技术的一些基本概念和算法。本章最后一节将给出本书其余部分的概述。

相关文章
|
存储 关系型数据库 OLAP
PgSQL · 应用案例 · PostgreSQL OLAP加速技术之向量计算
背景 在主流的OLTP数据库产品中,毫无疑问,PostgreSQL已经具备非常强大的竞争力(性能、功能、稳定性、成熟度、案例、跨行业应用等)。 通过这些文章我们可以了解更细致的情况。 《数据库十八摸 - 致 架构师、开发者》 《数据库界的华山论剑 tpc.org》 《PostgreSQL 前世今生》 在OLAP领域,PostgreSQL社区也是豪情万丈的,比如内核已经实现了基于CPU的多
8124 0
|
Ubuntu Unix Linux
Linux 使用及配置 Samba 客户端访问Samba服务器
Linux 使用及配置 Samba 客户端访问Samba服务器
3066 0
|
2天前
|
搜索推荐 编译器 Linux
一个可用于企业开发及通用跨平台的Makefile文件
一款适用于企业级开发的通用跨平台Makefile,支持C/C++混合编译、多目标输出(可执行文件、静态/动态库)、Release/Debug版本管理。配置简洁,仅需修改带`MF_CONFIGURE_`前缀的变量,支持脚本化配置与子Makefile管理,具备完善日志、错误提示和跨平台兼容性,附详细文档与示例,便于学习与集成。
253 116
|
17天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
11天前
|
安全 Java Android开发
深度解析 Android 崩溃捕获原理及从崩溃到归因的闭环实践
崩溃堆栈全是 a.b.c?Native 错误查不到行号?本文详解 Android 崩溃采集全链路原理,教你如何把“天书”变“说明书”。RUM SDK 已支持一键接入。
650 220
|
存储 人工智能 监控
从代码生成到自主决策:打造一个Coding驱动的“自我编程”Agent
本文介绍了一种基于LLM的“自我编程”Agent系统,通过代码驱动实现复杂逻辑。该Agent以Python为执行引擎,结合Py4j实现Java与Python交互,支持多工具调用、记忆分层与上下文工程,具备感知、认知、表达、自我评估等能力模块,目标是打造可进化的“1.5线”智能助手。
886 61
|
9天前
|
人工智能 移动开发 自然语言处理
2025最新HTML静态网页制作工具推荐:10款免费在线生成器小白也能5分钟上手
晓猛团队精选2025年10款真正免费、无需编程的在线HTML建站工具,涵盖AI生成、拖拽编辑、设计稿转代码等多种类型,均支持浏览器直接使用、快速出图与文件导出,特别适合零基础用户快速搭建个人网站、落地页或企业官网。
1470 157