lucene4.0学习心得

简介: lucene4.0在项目中的使用,学习心得,全局搜索参考

项目中需要用到全局搜索的功能,因为服务器流程审核比较严格,所以选择了lucene。总体来讲,个人感觉lucene主要有几个重点,分词器(我们用的中文IK分词),索引文件,索引查询几块。这里主要截取代码稍微介绍。还有一个问题就是Lucene貌似没有做向下兼容的操作,每个版本的API都不一定相同。附上jar包,demo,ik分词器jar包,分词器操作手册等,仅供参考和新手共同了解学习进步。

如下代码片段,指定了索引文件生成的位置,使用的分词器,lucene版本,索引的生成模式等。
OpenMode.CREATE是重新生成
OpenMode.APPEND是增量更新
项目中主要用的着两种,API里面还有各种其它的方式。

    IndexWriter writer = null;
    try {
        directory = FSDirectory.open(new File("C:/lucene/testIndex"));
        Analyzer analyzer = new IKAnalyzer();
        IndexWriterConfig conf = new IndexWriterConfig(Version.LUCENE_40,
                analyzer);
        conf.setOpenMode(OpenMode.CREATE);
        conf.setMaxBufferedDocs(100);
        writer = new IndexWriter(directory, conf);

下面是生成索引的代码片段。
1主要有Document document = new Document();(新建一个doc对象,往里面添加索引用的)
2其中对分词有StringField,TextField,IntergerField等等,主要决定字段的类型,以及精细度,实际操作发现比如 “我爱北京”,String会分成“我|爱|我爱|北京”,Text直接就是“我爱北京“,当然具体如何分词跟选用的分词器也有关系。

String query = "。。。";
            ResultSet result = st.executeQuery(query);
            while (result.next()) {
                Document document = new Document();
                document.add(newStringField("id",result.getString("id"),Field.Store.YES));
                if(result.getString("theme") != null){
                    if("userInfo".equals(result.getString("type"))){
                        document.add(new StringField("theme", result.getString("theme"), Field.Store.YES));
                    }
                        document.add(new TextField("theme", result.getString("theme"), Field.Store.YES));
                }
                if(result.getString("content") !=null){
                    document.add(new TextField("content", result.getString("content"), Field.Store.YES));
                }
                document.add(new StringField("type", result.getString("type"), Field.Store.YES));
                System.out.println(document.getFields()+"--------------------");
                writer.addDocument(document);

索引生成完毕之后就是查询了,如下是查询的。获取查找reader的实例

public IndexSearcher getSearcher() throws IOException {
    IndexReader reader = DirectoryReader.open(directory);
    IndexSearcher searcher = new IndexSearcher(reader);
    return searcher;
}

单条件查询的代码块如下,传入需要查找的字段,num为支持数量筛选
WildcardQuery 模糊查找,TermQuery 精确查找

public void searchByTerm(String field, String name, int num) throws IOException {
    IndexSearcher searcher = getSearcher();
    // WildcardQuery 模糊查找
    // TermQuery 精确查找
    Query query = new WildcardQuery(new Term(field, name));
    TopDocs tds = searcher.search(query, num);
    System.out.println("count:" + tds.totalHits);
    for (ScoreDoc sd : tds.scoreDocs) {
        Document doc = searcher.doc(sd.doc);
        System.out.println("id:" + doc.get("id"));
        System.out.println("theme:" + doc.get("theme"));
        System.out.println("content:" + doc.get("content"));
        System.out.println("type:" + doc.get("type"));
    }
}

多条件需要用到布尔查询,布尔组合条件查询的时候
主要有Occur.SHOULD(相当于or),Occur.MUST(相当于and),Occur.MUST_NOT(相当于!)列如代码中,就是要查找主题和正文中包含人名为陈洁的内容,但是排除news(资讯)

public void booleanQuery() throws Exception {
    IndexSearcher searcher = getSearcher();
    
    Term term = new Term("theme", "陈洁");  
    WildcardQuery wildcardQuery = new WildcardQuery(term);  
    Term term3 = new Term("type", "news");  
    TermQuery termQuery2 = new TermQuery(term3);  
    Term term2 = new Term("content", "陈洁"); 
    WildcardQuery wildcardQuery2 = new WildcardQuery(term2);
    TermQuery termQuery = new TermQuery(term2);  
    BooleanQuery booleanQuery = new BooleanQuery();  
    booleanQuery.add(wildcardQuery, Occur.SHOULD);  
    booleanQuery.add(termQuery2, Occur.MUST_NOT);  
    booleanQuery.add(termQuery, Occur.SHOULD);
    TopDocs topDocs = searcher.search(booleanQuery,null, 10);
    
    System.out.println("共检索出 " + topDocs.totalHits + " 条记录");
    System.out.println();
    
    ScoreDoc[] scoreDocs = topDocs.scoreDocs;
    for (ScoreDoc scDoc : scoreDocs) {
        Document doc = searcher.doc(scDoc.doc);
        System.out.println("id:" + doc.get("id"));
        System.out.println("theme:" + doc.get("theme"));
        System.out.println("content:" + doc.get("content"));
        System.out.println("type:" + doc.get("type"));
    }
    
}
相关文章
|
8月前
|
索引
lucene入门使用
lucene入门使用
45 2
|
9月前
|
监控 搜索推荐 安全
面经:Elasticsearch全文搜索引擎原理与实战
【4月更文挑战第10天】本文是关于Elasticsearch面试准备的博客,重点讨论了四个核心主题:Elasticsearch的分布式架构和数据模型、CRUD操作与查询DSL、集群管理与性能优化,以及安全与插件扩展。文中通过代码示例介绍了如何进行文档操作、查询以及集群管理,并强调理解Elasticsearch的底层原理和优化策略对面试和实际工作的重要性。
85 6
|
Java 索引
04Lucene入门程序
04Lucene入门程序
59 0
|
存储 自然语言处理 算法
Lucene学习总结
Lucene学习总结
122 0
Lucene学习总结
|
存储 自然语言处理 搜索推荐
快速上手搜索引擎的秘密武器——Lucene
这篇文章介绍下这个 Lucene,下篇写写 ElasticSearch , 然后再继续填 Spring 的坑 🕳 内容的话就很基础啦🐖,希望能帮你快速入门,了解下它
163 0
|
存储 SQL 自然语言处理
lucene从理论到实践
lucene从理论到实践
215 0
|
缓存 自然语言处理 搜索推荐
💖每天拿出20分钟,带你入门涨薪3k的ElasticSearch全文搜索引擎(3)
ElasticSearch中采用标准分词器进行分词,这种方式并不适用于中文网站。因此需要修改ElasticSearch对中文友好分词,从而达到更佳的搜索的效果。而支持中文分词的分词器就是IK分词器。
239 0
💖每天拿出20分钟,带你入门涨薪3k的ElasticSearch全文搜索引擎(3)
|
存储 JSON 自然语言处理
💖每天拿出20分钟,带你入门涨薪3k的ElasticSearch全文搜索引擎(1)
全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。
276 0
💖每天拿出20分钟,带你入门涨薪3k的ElasticSearch全文搜索引擎(1)
|
存储 JSON 自然语言处理
💖每天拿出20分钟,带你入门涨薪3k的ElasticSearch全文搜索引擎(2)
Kibana是一个针对Elasticsearch的开源分析及可视化平台,使用Kibana可以查询、查看并与存储在ES索引的数据进行交互操作,使用Kibana能执行高级的数据分析,并能以图表、表格和地图的形式查看数据。Kibana与Elasticsearch版本保持严格一致。
166 0
💖每天拿出20分钟,带你入门涨薪3k的ElasticSearch全文搜索引擎(2)
|
存储 Java Apache