1.搜索引擎的历史,搜索引擎起步,发展,繁荣,搜索引擎的原理,搜索技术用途,信息检索过程,倒排索引,什么是Lucene,Lucene快速入门

简介:  一: 1  搜索引擎的历史 萌芽:Archie、Gopher Archie:搜索FTP服务器上的文件 Gopher:索引网页   2  起步:Robot(网络机器人)的出现与spider(网络爬虫) Robot基于网络的,可以执行特定任务的程序 Spider:特殊的机器人,网络爬虫,爬取互联网上的信息(可以是文件,网络)---


一:

1  搜索引擎的历史

萌芽:ArchieGopher

Archie:搜索FTP服务器上的文件

Gopher:索引网页

 

2  起步:Robot(网络机器人)的出现与spider(网络爬虫)

Robot基于网络的,可以执行特定任务的程序

Spider:特殊的机器人,网络爬虫,爬取互联网上的信息(可以是文件,网络)----网络自动下载程序

 

3   发展阶段:excite,galaxy,yahoo这些公司做搜索

 

4   繁荣:infoseek,AltaVista,Google和百度

 

5   搜索引擎的原理:

有三步

A  爬取资源

B  建立索引

C  用户索引

  搜索技术能用来做什么?

案例:

A  使用wordCtrl+F进行检索:原理:从文档自上而下搜索

B  windows的资源管理器中看搜索:搜索每个文件夹,检索需要的文件

C MyEclipse中的help contents:原理:站内搜索

D BaiduGoogle提供互联网中各种资源的搜索:原理:垂直搜索

 

三:信息检索的过程

A  构建文本库

B  建立索引

C  进行搜索

D  对结果进行排序

 

四:倒排索引

倒排搜索区别于传统查找,传统线性查找,按照信息从前到后,依次查找(效率),倒排搜索,记录信息出现的位置,通过索引内容快速找到关键信息,类似书记的目录!

 

五:什么是Lucene(全文检索框架,apache提供)

A  Lucene是一套用于全文检索和搜寻的开源程式接口,能够做全文索引和搜寻,在Java开发环境里Lucene是一个成熟的免费开发源代码工具

 

B Lucene是提供了一个简单却强大的应用程式接口,能够做全文检索索引和搜寻,在Java开发环境里Lucene是一个成熟的免费的开放源代码工具。

 

 

全文检索:对数据建立全文索引,根据全文索引搜索信息

 

solr 是高性能搜索服务器,基于Lucene

 

Lucene并不是现成的搜索引擎产品,但可以用来制作搜索引擎产品

Lucene是搜索引擎的开发技术,Lucene并不是一个现成的产品

 

官网:http://lucene.apache.org

  什么是全文件检索

全文检索:对需要查找数据的每一个单词建立索引

 

七:Lucene快速入门(5个步骤)

A 下载Lucene的卡发包,Lucene-3.6.2.zip

B 导入jar包到工程Lucene-core-3.6.2.jar

C 将数据转换成为文档对象Document

D 建立索引Index

E 查询索引获取数据

 

 

 

目录
相关文章
【安装教程】【Visio2019】(附带安装包下载)
【安装教程】【Visio2019】(附带安装包下载)
6813 0
【安装教程】【Visio2019】(附带安装包下载)
|
5月前
|
JSON 前端开发 Java
Java新手指南:如何在Spring MVC中处理请求参数
处理Spring MVC中的请求参数是通过控制器方法中的注解来完成的。这些注解包括 `@RequestParam`, `@PathVariable`, `@ModelAttribute`, `@RequestBody`, `@RequestHeader`, `@Valid`, 和 `@RequestMapping`。使用这些注解可以轻松从HTTP请求中提取所需信息,例如URL参数、表单数据或者JSON请求体,并将其转换成Java对象以供进一步处理。
474 17
|
JSON 搜索推荐 Go
ZincSearch搜索引擎中文文档及在Go语言中代码实现
ZincSearch官网及开发文档均为英文,对非英语用户不够友好。GoFly全栈开发社区将官方文档翻译成中文,并增加实战经验和代码,便于新手使用。本文档涵盖ZincSearch在Go语言中的实现,包括封装工具库、操作接口、统一组件调用及业务代码示例。官方文档https://zincsearch-docs.zinc.dev;中文文档https://doc.goflys.cn/docview?id=41。
466 0
|
8月前
|
分布式计算 监控 安全
产品评测|从数据标准到实时监控,深度解析Dataphin如何以智能提效与安全合规驱动企业数据价值释放
Dataphin是阿里巴巴基于OneData方法论打造的一站式数据治理与建设平台,帮助企业实现数据全生命周期管理。本文详细记录了使用Dataphin搭建离线数仓的全流程,包括环境准备、数仓规划、数据引入、处理、周期任务补数据、数据验证与分析等环节。体验中发现其离线管道任务、周期调度、补数据功能便捷高效,但也存在系统稳定性不足、文档更新滞后等问题。建议增强对JSON文件支持、优化资源推荐机制并完善脱敏操作功能,进一步提升用户体验。
|
存储 NoSQL 数据挖掘
深入探索MongoDB聚合操作:解析数据之美
深入探索MongoDB聚合操作:解析数据之美
410 1
|
移动开发 JavaScript 小程序
uView NoticeBar 滚动通知
uView NoticeBar 滚动通知
243 0
|
存储 固态存储 Linux
Apache Doris集群模式快速体验之CentOS7安装(1)1
Apache Doris集群模式快速体验之CentOS7安装(1)1
393 0
|
安全 Shell Linux
靶机实战-vuluhub系列-Hack djinn:1 : walkthrough
靶机实战-vuluhub系列-Hack djinn:1 : walkthrough
靶机实战-vuluhub系列-Hack djinn:1 : walkthrough