lucene原理及源码解析--核心类(下)

简介: 访问者模式把数据结构和作用于结构上的操作解耦合,使得操作集合可相对自由地演化。具体到这个类就是不管是什么类型的数据,我都把它添加到Document对象里。

store这个包主要是做IO的:


1112728-20170302114059095-1705293124.gif


1112728-20170302114133016-1899030285.png


这里面值得注意是在做IO的时候用到了LockFactory,一个锁工厂。这是典型的工厂模式自不必说。它的主要作用是防止读写Directory的并发。下面是BaseDirectory的源码:


public abstract class BaseDirectory extends Directory {
volatile protected boolean isOpen = true;
protected LockFactory lockFactory;
/** Sole constructor. */
protected BaseDirectory() {
super();
}
@Override
public Lock makeLock(String name) {
return lockFactory.makeLock(name);
}
@Override
public void clearLock(String name) throws IOException {
if (lockFactory != null) {
lockFactory.clearLock(name);
}
}
@Override
public void setLockFactory(LockFactory lockFactory) throws IOException {
assert lockFactory != null;
this.lockFactory = lockFactory;
lockFactory.setLockPrefix(this.getLockID());
}
@Override
public LockFactory getLockFactory() {
return this.lockFactory;
}
@Override
protected final void ensureOpen() throws AlreadyClosedException {
if (!isOpen)
throw new AlreadyClosedException("this Directory is closed");
}
}


BaseDirectory基本上就做了一件事:就是管理锁工厂。下面重点来说一下Directory相关的类:


1112728-20170302140447532-1662055727.png


还是Type Hierarchy更直观些:


1112728-20170302141230907-135713783.png


从上面两个图可以看出Directory的直接子类就只有BaseDirectoy和FilterDirectory两个。

其中FilterDirectory的子类都是给Directory添加附加的功能:TrackingDirectoryWrapper是记录文件的写入或删除;NRTCachingDirectory是提供对RAMDirectory的缓存,达到近实时的效果(NRT:near real time);RateLimitedDirecotyWrapper是通过IOContext来限制读写速率。这些都是装饰器模式的代表。


BaseDirectory的子类中,FileSwitchDirectory针对lucene的不同的索引文件使用不同的Directory;CompoundFileDirectory用于访问一个组合的数据流;RAMDirectory是常驻内存的Directory实现。FSDirectory是文件系统的Directory(FS:File System ),它的三种实现:SimpleFSDirectory,它的并发支持能力有限;NIOFSDirectory支持默认线程安全的多线程读取;MMapDirectory是通过内存映射读取的Directory。


下面是analysis包,这个是用来分词的,我在当初做项目的时候用的是IK分词器。因为歪果仁的分词器对中文的支持不太好,什么自带的标准分词器啥的都是一个个字就是一个分词了。中国人比较人性化的是基于词典的分词器。标准分词器在对姓名这种组合词组没有什么意义的时候有用。所以在做垂直搜索的时候,可以对不同的列采用不同的分词器。比如一篇文章存成一个Document,里面有不同的Field。标题和内容是TextField,可以用基于词典的分词器拆分。发表时间是一个LongField(我记得我当初用的时候没有专门的时间Field)不可拆分,可以排序。标题可以是StringField不可拆分,也可以用TextField标准分词器来拆分分词,看业务需求。


1112728-20170302144502720-1946398099.png 


因为现在看的创建索引的过程,那么index那个包里先只看IndexWriter。代码比较多,我就不贴源码了。


  一个IndexWriter对象只创建并维护一个索引。IndexWriter通过Directory以及Analyzer来构建,给它画个类图还是很有意义的:




1112728-20170302160949016-2100627455.jpg


话说咱也是会用UML建模工具的,只是觉得手绘比较快,显然歪果仁和我有同样的见解,他们还专门起个名字叫:freehand


Lucene打开一个IndexWriter就会把它Lock住,不释放,再次访问就会抛出Lock obtain timed out异常。Document写入索引文件的时候也是先写入小的segment分段索引然后再按一定机制合并的。我在运行的时候,会观察磁盘的变化。比如:能发现在IndexWriter在打开后磁盘会多出一个write.lock文件。IndexWriter关闭时文件被删除。你还可以看到分段文件到大索引文件的合并过程。还可以对比全文数据到索引文件大小的变化。


相关文章
|
4天前
|
Linux 网络安全 Windows
网络安全笔记-day8,DHCP部署_dhcp搭建部署,源码解析
网络安全笔记-day8,DHCP部署_dhcp搭建部署,源码解析
|
5天前
|
负载均衡 算法
Dubbo-负载均衡原理解析(1),一个本科渣渣是怎么逆袭从咸鱼到Offer收割机的
Dubbo-负载均衡原理解析(1),一个本科渣渣是怎么逆袭从咸鱼到Offer收割机的
|
5天前
|
Android开发
Flutter完整开发实战详解(六、 深入Widget原理),2024百度Android岗面试真题收录解析
Flutter完整开发实战详解(六、 深入Widget原理),2024百度Android岗面试真题收录解析
|
5天前
HuggingFace Tranformers 源码解析(4)
HuggingFace Tranformers 源码解析
6 0
|
5天前
HuggingFace Tranformers 源码解析(3)
HuggingFace Tranformers 源码解析
7 0
|
5天前
|
开发工具 git
HuggingFace Tranformers 源码解析(2)
HuggingFace Tranformers 源码解析
8 0
|
5天前
|
并行计算
HuggingFace Tranformers 源码解析(1)
HuggingFace Tranformers 源码解析
11 0
|
6天前
|
Web App开发 开发框架 前端开发
Open UI5 前端开发框架配套的 Mock Server 工作原理解析
Open UI5 前端开发框架配套的 Mock Server 工作原理解析
11 0
|
6天前
PandasTA 源码解析(二十三)
PandasTA 源码解析(二十三)
43 0
|
6天前
PandasTA 源码解析(二十二)(3)
PandasTA 源码解析(二十二)
35 0

推荐镜像

更多