Lucene中对document(记录)的CURD操作~为分布式全文检索设计

简介:

Lucene.net是.net环境中比较强的全文检索工具,它是从JAVA中转过来的,.net版本的lucene在功能上也豪不逊色于java版的lucene。今天主要来说一下lucene索引文件在更新时的一些方式。

一 整个索引文件 (cfs文件)覆盖更新;优点:简单,缺点:与服务器没有交互,但在生成索引文件时对IO影响比较大,前台lucene信息显示与数据库不同步。

二 索引文件按需要更新(对document记录进行curd操作),优点:与数据库同步,缺点:与服务器交互多,对于curd的安全性要重视起来,但这样做是必须的。

下面主要说一下第二种索引文件按需要更新的情况

追加document(记录):当数据库表中有insert操作时,这时lucene也应该进行相应的insert操作,这就是追加,在IndexWriter中有AddDocument方法,它没什么好说的,按着方法签名转值即可,注意操作完成后要对IndexWriter进行Optimize和Close

 1        [WebMethod]
 2         public int AppendLuceneDocument(string primaryKey, string id, string name, string info, string categoryName, string propertyName, string module, string passKey)
 3         {
 4             int flag = 0;
 5             try
 6             {
 7                 dirInfo = Directory.CreateDirectory(this.GetIndexPath(ConfigurationManager.AppSettings[module]));
 8                 directory = LuceneIO.FSDirectory.Open(dirInfo);
 9                 IndexWriter writer = new IndexWriter(directory, new StandardAnalyzer(Lucene.Net.Util.Version.LUCENE_29), false, IndexWriter.MaxFieldLength.UNLIMITED);
10                 Document doc = new Document();
11                 doc.Add(new Field("PrimaryKey", primaryKey, Field.Store.YES, Field.Index.ANALYZED));
12                 doc.Add(new Field("ID", id, Field.Store.YES, Field.Index.NO));
13                 doc.Add(new Field("Name", name, Field.Store.YES, Field.Index.ANALYZED));
14                 doc.Add(new Field("Info", info, Field.Store.YES, Field.Index.ANALYZED));
15                 doc.Add(new Field("CategoryName", categoryName, Field.Store.YES, Field.Index.ANALYZED));
16                 doc.Add(new Field("PropertyName", propertyName, Field.Store.YES, Field.Index.ANALYZED));
17                 writer.AddDocument(doc);
18                 writer.Optimize();
19                 writer.Close();
20                 flag = 1;
21             }
22             catch (Exception)
23             {
24 
25                 throw;
26             }
27             return flag;
28         }

删除记录(document):这个操作需要我们注意几点:

1 要删除的记录的依据应该具有唯一性,这样删除才有意义,并且这个字段在lucene存储时需要是ANALYZED,即可以被检索到

2 删除时的条件最好使用Query,而不要使用Term,我做过很多测试,结果证明Term条件总是不要使。

对于删除的代码如下:

 1      [WebMethod]
 2         public int DeleteLuceneDocument(string primaryKey, string module, string passKey)
 3         {
 4             int flag = 0;
 5             try
 6             {
 7                 dirInfo = Directory.CreateDirectory(this.GetIndexPath(ConfigurationManager.AppSettings[module]));
 8                 directory = LuceneIO.FSDirectory.Open(dirInfo);
 9                 IndexWriter writer = new IndexWriter(directory, standardAnalyzer, false, IndexWriter.MaxFieldLength.UNLIMITED);
10                 QueryParser parser = new QueryParser(Lucene.Net.Util.Version.LUCENE_29, "PrimaryKey", new StandardAnalyzer(Lucene.Net.Util.Version.LUCENE_29));
11                 Query query = parser.Parse(primaryKey);
12                 writer.DeleteDocuments(query);
13                 writer.Commit();
14                 writer.Optimize();
15                 writer.Close();
16                 flag = 1;
17             }
18             catch (Exception)
19             {
20 
21                 throw;
22             }
23             return flag;
24         }

而更新操作事实上就是先把记录删除,再追加一条新的记录即可,而IndexWriter为我们提供的UpdateDocuments感觉更向是在复制一个,所以不建议使用它,

而是手动删除和追加来完成这个update操作。

 1      [WebMethod]
 2         public int UpdateLuceneDocument(string primaryKey, string id, string name, string info, string categoryName, string propertyName, string module, string passKey)
 3         {
 4             int flag = 0;
 5             try
 6             {
 7                 dirInfo = Directory.CreateDirectory(this.GetIndexPath(ConfigurationManager.AppSettings[module]));
 8                 directory = LuceneIO.FSDirectory.Open(dirInfo);
 9                 IndexWriter writer = new IndexWriter(directory, new StandardAnalyzer(Lucene.Net.Util.Version.LUCENE_29), false, IndexWriter.MaxFieldLength.UNLIMITED);
10                 Document doc = new Document();
11                 doc.Add(new Field("PrimaryKey", primaryKey, Field.Store.YES, Field.Index.ANALYZED));
12                 doc.Add(new Field("ID", id, Field.Store.YES, Field.Index.NO));
13                 doc.Add(new Field("Name", name, Field.Store.YES, Field.Index.ANALYZED));
14                 doc.Add(new Field("Info", info, Field.Store.YES, Field.Index.ANALYZED));
15                 doc.Add(new Field("CategoryName", categoryName, Field.Store.YES, Field.Index.ANALYZED));
16                 doc.Add(new Field("PropertyName", propertyName, Field.Store.YES, Field.Index.ANALYZED));
17                 QueryParser parser = new QueryParser(Lucene.Net.Util.Version.LUCENE_29, "PrimaryKey", new StandardAnalyzer(Lucene.Net.Util.Version.LUCENE_29));
18                 Query query = parser.Parse(primaryKey);
19                 writer.DeleteDocuments(query);
20                 writer.Commit();
21                 writer.AddDocument(doc);
22                 writer.Optimize();
23                 writer.Close();
24                 flag = 1;
25             }
26             catch (Exception)
27             {
28 
29                 throw;
30             }
31 
32             return flag;
33         }

OK,这就是对索引文件进行按需的操作,以后我会把我的lucene架构整理成文章,供大家讨论。

本文转自博客园张占岭(仓储大叔)的博客,原文链接:Lucene中对document(记录)的CURD操作~为分布式全文检索设计,如需转载请自行联系原博主。

目录
相关文章
|
6月前
|
机器学习/深度学习 人工智能 Shell
人工智能平台PAI操作报错合集之在分布式训练过程中遇到报错,是什么原因
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
7月前
|
存储 搜索推荐 Java
微服务SpringCloud ES分布式全文搜索引擎简介 下载安装及简单操作入门
微服务SpringCloud ES分布式全文搜索引擎简介 下载安装及简单操作入门
98 2
|
6月前
|
运维 监控 Java
在大数据场景下,Elasticsearch作为分布式搜索与分析引擎,因其扩展性和易用性成为全文检索首选。
【7月更文挑战第1天】在大数据场景下,Elasticsearch作为分布式搜索与分析引擎,因其扩展性和易用性成为全文检索首选。本文讲解如何在Java中集成Elasticsearch,包括安装配置、使用RestHighLevelClient连接、创建索引和文档操作,以及全文检索查询。此外,还涉及高级查询、性能优化和故障排查,帮助开发者高效处理非结构化数据。
87 0
|
8月前
|
SQL 存储 NoSQL
分布式NoSQL列存储数据库Hbase操作(二)
分布式NoSQL列存储数据库Hbase操作(二)
158 0
|
消息中间件 存储 NoSQL
阿里云国际站代理商:使用Redis实现一个分布式的全局ID怎么操作?
阿里云国际站代理商:使用Redis实现一个分布式的全局ID怎么操作?Redis(Remote Dictionary Server)是一款基于内存的高性能键值对(Key-Value)存储系统。它支持多种数据结构,如字符串、整数、浮点数等,具有高速读写、持久化、分布式等特点。在很多场景下,Redis可以作为数据库、缓存、消息队列等多种应用的数据存储方案。本文将介绍如何使用Redis实现一个分布式的全局ID生成器。
|
Java 关系型数据库 数据库
分布式微服务系统的跨库查询/操作的解决思路(关系型数据库)
分布式微服务系统的跨库查询/操作的解决思路(关系型数据库)
4544 0
分布式微服务系统的跨库查询/操作的解决思路(关系型数据库)
|
JSON 自然语言处理 Java
39-微服务技术栈(高级):分布式搜索引擎ElasticSearch(索引库、文档操作)
在前面读者朋友们可以了解到ES承载着和MySQL一样的“存储-查询”功能,那么就类似的会有建表语句、表结构、表数据,有了这些才可以存储-查询数据。而这些对应的在ES中是:Mapping映射(表结构-建表语句)、索引库(表本身)、文档(表数据)。本节笔者将带领大家完整上述概念的创建、使用。
202 0
|
缓存 NoSQL API
分布式服务器框架之Servers.Common中使用CSRedis测试操作Redis中的string、hash_table、list、set、zset
在Servers.Common类库总创建了一个TestRedis.cs文件,我是在Servers.GameServer中去初始化的。主要是测试了Redis中常用的数据类型和常用的API,有一些不常用的可能没有写。需要详细了解API的话可以安装上CSRedis之后F12追进去查看,上面有详细的API说明。
分布式服务器框架之Servers.Common中使用CSRedis测试操作Redis中的string、hash_table、list、set、zset
|
分布式计算 Hadoop
Lucene/Solr 分布式与实时方案收集
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。
129 0