搜索引擎概述

简介: 对信息检索的评价——准确率和召回率。 相关文档:能够较好匹配用户搜索关键字的文档。 准确率,precision。检索出来的文档中,相关文档所占比例。 召回率,recall。全部相关文档中,被检索出来的文档的比例。 垂直搜索,vertical search。针对某一主题(行业、应用)的特殊搜索。 站内搜索:搜索被限定在一个给定网站内。 评价:用户与操作引擎交互的日志是很有价值

对信息检索的评价——准确率和召回率。

相关文档:能够较好匹配用户搜索关键字的文档。

准确率,precision。检索出来的文档中,相关文档所占比例。

召回率,recall。全部相关文档中,被检索出来的文档的比例。

垂直搜索,vertical search。针对某一主题(行业、应用)的特殊搜索。

站内搜索:搜索被限定在一个给定网站内。

评价:用户与操作引擎交互的日志是很有价值的信息源。


搜索引擎工作流

文本采集

网络爬虫:通过追踪网页上的超链接,找到并下载新的页面。

.doc 、excel、.pdf等二进制文件也有专门的函数可以读。

索引创建

分词:找出文档中的关键字,去除一些停用词。

停用词:无单独意义又经常出现的词,英文如: as 、for、 the、 this;中文如 的、是、这个、啊。

倒排索引inverted index。正排:文档->单词的集合;倒排:单词->文档的集合。posting(记录)中可包含文档编号、出现位置、出现频率等。

对不同的文档扫描得到不同的倒排索引,然后进行合并。

为了更好的合并,通常先字典排序,再进行二路归并。此时会有大量前缀相同的词排在一起。可采用公共前缀思想进行压缩

打分;对文档的质量、重要性进行打分。

索引检索

分词

检索。根据倒排索引取文档的交集

打分:按照一定的公式,索引创建阶段的文档分数与关键字分数共同影响最终得分

优先队列:搜索到的相关文档可能太多,用户一般只需要前若干个。故检索过程中根据打分分值维护一个规模为n的优先队列即可。

用户交互

用户输入与得到输出。

每条结果通常包括文档标题、简要描述、超链接 三部分。


目录
相关文章
|
11天前
|
搜索推荐 安全 生物认证
如何使用 FOFA 搜索引擎保姆级教程(附链接)
如何使用 FOFA 搜索引擎保姆级教程(附链接)
|
11天前
|
搜索推荐 安全 物联网
如何使用 ZoomEye 搜索引擎保姆级教程(附链接)
如何使用 ZoomEye 搜索引擎保姆级教程(附链接)
|
11天前
|
缓存 安全 搜索推荐
如何使用 Shodan 搜索引擎保姆级教程(附链接)
如何使用 Shodan 搜索引擎保姆级教程(附链接)
|
11天前
|
自然语言处理 搜索推荐 SEO
如何使用 Google 搜索引擎保姆级教程(附链接)
如何使用 Google 搜索引擎保姆级教程(附链接)
|
11天前
|
SQL 搜索推荐 数据库
分布式搜索引擎_学习笔记_3
分布式搜索引擎_学习笔记_3
22 1
|
9月前
|
存储 搜索推荐 数据挖掘
深入探索Elasticsearch搜索引擎:高效搜索和分析的利器
在现代信息时代,数据量爆炸式增长,如何高效地搜索、分析和检索数据成为了一个重要的挑战。Elasticsearch作为一款分布式、实时搜索和分析引擎,为我们提供了强大的解决方案。本文将深入探讨Elasticsearch的基本概念、特点,以及如何在实际应用中应用它来实现高效的搜索和分析。
87 1
|
存储 算法 搜索推荐
【GoDance搜索引擎】搜索引擎集群模块实现笔记
【GoDance搜索引擎】搜索引擎集群模块实现笔记
【GoDance搜索引擎】搜索引擎集群模块实现笔记
|
搜索推荐 关系型数据库 MySQL
利用Xunsearch搭建搜索引擎、内容搜索实战
利用Xunsearch搭建搜索引擎、内容搜索实战
270 0
利用Xunsearch搭建搜索引擎、内容搜索实战
|
存储 缓存 搜索推荐
郁金香搜索引擎的方案
先介绍学心理学的时候记住的两个把妹秘籍:   1>巴甫洛夫把妹法:巴甫洛夫的狗的反射试验上学的时候大家都应该学过,天天给狗喂食的时候摇铃,后来不喂食只摇铃狗还是分泌唾液。应用到把妹这个非常有实际意义的事情上面就是:每天给妹子送早晨,等人家形成了习惯,突然不送了,人家就开始觉得不自在了,开始各种想这个男孩纸~~   2>吊桥效应:在吊桥上,由于危险的情境,人们会不自觉地心跳加快,错把由这种情境引起的心跳加快理解为对方使自己心动,才产生的生理反应,故而对对方滋生出爱情的情愫。   心理学是门很实用的学问吧[偷笑][偷笑]。
郁金香搜索引擎的方案
|
存储 数据采集 自然语言处理
怎么快速的让网站被收录?搜索引擎的工作原理
要想在搜索引擎中有好的排名表现,网站收录是基础。另一方面,页面收录的数量级也代表了网站的整体质量。在我看来,要想收录百度网站,首先要了解搜索引擎的工作原理,这样才能迎合搜索规则,让网站收录达到理想状态。
怎么快速的让网站被收录?搜索引擎的工作原理