lucene原理及源码解析--核心类(上)

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 马云说:大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。然而,我看到的是:在PC时代搞PC的,移动互联网时代搞移动互联网的,大数据时代搞大数据的,都是同一伙儿人。我就是一个做业务方向的,而回忆起真正做技术的时光,也就是大数据时代刚来临的时候做搜索了。搜索用的是solr框架,solr就是包装了lucene实现了近实时索引。所以源头还是lucene。而且lucene是java写的全文检索库,源码是一定要研究一下的。

马云说:大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。


然而,我看到的是:在PC时代搞PC的,移动互联网时代搞移动互联网的,大数据时代搞大数据的,都是同一伙儿人。


我就是一个做业务方向的,而回忆起真正做技术的时光,也就是大数据时代刚来临的时候做搜索了。


搜索用的是solr框架,solr就是包装了lucene实现了近实时索引。所以源头还是lucene。而且lucenejava写的全文检索库,源码是一定要研究一下的。


刚才提到全文检索,要说它的概念先来谈谈数据。数据分为结构化数据和全文数据。对于没有什么固定格式的全文数据的检索就是全文检索了。


对全文数据的搜索最原始的做法是顺序扫描。就是找一个开始从头到尾的匹配,匹配对了就记录一下,然后继续扫直到结束。Windows的搜索功能就是这么做的。


顺序扫描很慢,想要加快其搜索速度就要让数据高度有序,即结构化。这种从全文中提取重新组织的信息称为索引。而lucene做的只有两件事:建立索引和搜索索引。目前lucene的最新版是6.4.1,但本文的版本是我当初使用的使用的版本4.10.1. 记得那时每月都有新版,我跟追剧似的追了好久。


首先说建立索引:打开文件目录,这个目录可以是磁盘或者是内存。遍历里面的文件,将每个文件的一个字段存成一个Field对象(相当于关系型数据库的列),一条记录存成一个Document(相当于关系型数据库的行),写入IndexWriter里。


打开目录用的FSDirectory对象的open函数。这个函数是一个Directory的工厂(工厂模式),其实打开类型的文件也是和环境进行了适配的,也可以理解为适配器模式。研究任何一种源码都离不开其设计模式的。


今天先介绍几个核心的类。因为放在冰箱里的水果被人偷吃了好多,宝宝不开心。下次记得一定要把袋子系好口,尽量往里面放。所以今天多打算多些几行代码,忘掉我那可爱的苹果,桂圆和小金桔。苹果总共就四个,是谁那么狠心忍心拿走一个啊[大哭][大哭]拿走我的橙子以为我数不出来吗,不知道我记性好啊,看一眼就知道几个了啊。下次能不能拿点我看不出来的啊?你吃了我的东西给我留个条啊?没准我知道你来不及吃早饭还给你送吃的过去呢,不带这么不客气的!世界上最遥远的距离,是你我同在一个办公室里,你偷吃了我的水果,我却不知道你是谁。


Lucene核心类


1112728-20170302110003688-324569396.png


lucene-core里这几个package列出了lucene核心做的几件事情:解析,解码,存储格式,索引,搜索,存储和工具类。


这里面最好理解的是document包的内容:


1112728-20170302110520204-2021580680.png


这里面所有以Field结尾的类就是定义字段格式的。除了各种Field,包里就剩下Document用于存放Field和几个字段格式的工具类。值得注意的是里面有一个DocumentStoredFieldVisitor。我们一般类命名除了类的功能属性外,还有一种常见的结尾,就是设计模式名。这个类一看就知道是运用了访问者模式。源码很简单:


public class DocumentStoredFieldVisitor extends StoredFieldVisitor {
private final Document doc = new Document();
private final Set<String> fieldsToAdd;
public DocumentStoredFieldVisitor(Set<String> fieldsToAdd) {
this.fieldsToAdd = fieldsToAdd;
}
/** Load only fields named in the provided fields. */
public DocumentStoredFieldVisitor(String... fields) {
fieldsToAdd = new HashSet<>(fields.length);
for(String field : fields) {
fieldsToAdd.add(field);
}
}
/** Load all stored fields. */
public DocumentStoredFieldVisitor() {
this.fieldsToAdd = null;
}
@Override
public void binaryField(FieldInfo fieldInfo, byte[] value) throws IOException {
doc.add(new StoredField(fieldInfo.name, value));
}
@Override
public void stringField(FieldInfo fieldInfo, String value) throws IOException {
final FieldType ft = new FieldType(TextField.TYPE_STORED);
ft.setStoreTermVectors(fieldInfo.hasVectors());
ft.setIndexed(fieldInfo.isIndexed());
ft.setOmitNorms(fieldInfo.omitsNorms());
ft.setIndexOptions(fieldInfo.getIndexOptions());
doc.add(new Field(fieldInfo.name, value, ft));
}
@Override
public void intField(FieldInfo fieldInfo, int value) {
doc.add(new StoredField(fieldInfo.name, value));
}
@Override
public void longField(FieldInfo fieldInfo, long value) {
doc.add(new StoredField(fieldInfo.name, value));
}
@Override
public void floatField(FieldInfo fieldInfo, float value) {
doc.add(new StoredField(fieldInfo.name, value));
}
@Override
public void doubleField(FieldInfo fieldInfo, double value) {
doc.add(new StoredField(fieldInfo.name, value));
}
@Override
public Status needsField(FieldInfo fieldInfo) throws IOException {
return fieldsToAdd == null || fieldsToAdd.contains(fieldInfo.name) ? Status.YES : Status.NO;
}
public Document getDocument() {
return doc;
}
}


访问者模式把数据结构和作用于结构上的操作解耦合,使得操作集合可相对自由地演化。具体到这个类就是不管是什么类型的数据,我都把它添加到Document对象里。



相关文章
|
6天前
|
监控 Java 应用服务中间件
高级java面试---spring.factories文件的解析源码API机制
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性,极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是spring.factories文件的解析源码API机制。
19 2
|
6天前
|
存储 安全 Linux
Golang的GMP调度模型与源码解析
【11月更文挑战第11天】GMP 调度模型是 Go 语言运行时系统的核心部分,用于高效管理和调度大量协程(goroutine)。它通过少量的操作系统线程(M)和逻辑处理器(P)来调度大量的轻量级协程(G),从而实现高性能的并发处理。GMP 模型通过本地队列和全局队列来减少锁竞争,提高调度效率。在 Go 源码中,`runtime.h` 文件定义了关键数据结构,`schedule()` 和 `findrunnable()` 函数实现了核心调度逻辑。通过深入研究 GMP 模型,可以更好地理解 Go 语言的并发机制。
|
18天前
|
消息中间件 缓存 安全
Future与FutureTask源码解析,接口阻塞问题及解决方案
【11月更文挑战第5天】在Java开发中,多线程编程是提高系统并发性能和资源利用率的重要手段。然而,多线程编程也带来了诸如线程安全、死锁、接口阻塞等一系列复杂问题。本文将深度剖析多线程优化技巧、Future与FutureTask的源码、接口阻塞问题及解决方案,并通过具体业务场景和Java代码示例进行实战演示。
38 3
|
19天前
|
算法 Java 数据库连接
Java连接池技术,从基础概念出发,解析了连接池的工作原理及其重要性
本文详细介绍了Java连接池技术,从基础概念出发,解析了连接池的工作原理及其重要性。连接池通过复用数据库连接,显著提升了应用的性能和稳定性。文章还展示了使用HikariCP连接池的示例代码,帮助读者更好地理解和应用这一技术。
32 1
|
6天前
|
存储 供应链 物联网
深入解析区块链技术的核心原理与应用前景
深入解析区块链技术的核心原理与应用前景
|
6天前
|
存储 供应链 安全
深度解析区块链技术的核心原理与应用前景
深度解析区块链技术的核心原理与应用前景
14 0
|
1月前
|
缓存 Java 程序员
Map - LinkedHashSet&Map源码解析
Map - LinkedHashSet&Map源码解析
67 0
|
1月前
|
算法 Java 容器
Map - HashSet & HashMap 源码解析
Map - HashSet & HashMap 源码解析
54 0
|
1月前
|
存储 Java C++
Collection-PriorityQueue源码解析
Collection-PriorityQueue源码解析
60 0
|
1月前
|
安全 Java 程序员
Collection-Stack&Queue源码解析
Collection-Stack&Queue源码解析
80 0

推荐镜像

更多