用lucene实现在一个(或者多个)字段中查找多个关键字-阿里云开发者社区

开发者社区> 旭东的博客> 正文

用lucene实现在一个(或者多个)字段中查找多个关键字

简介:   最近跟着师兄们做个项目,我的任务就是负责做个“全文检索”的小模块。用到了Lucene的索引,下面的是其中的用Lucene实现在索引的一个字段(比如文章内容字段)进行查找多个关键字的实例代码。   1.Lucene说明   Lucene是非常优秀的成熟的开源的免费的纯java语言的全文索引检索工具包。
+关注继续查看

  最近跟着师兄们做个项目,我的任务就是负责做个“全文检索”的小模块。用到了Lucene的索引,下面的是其中的用Lucene实现在索引的一个字段(比如文章内容字段)进行查找多个关键字的实例代码。

  1.Lucene说明

  Lucene是非常优秀的成熟的开源的免费的纯java语言的全文索引检索工具包。

  Lucene的的强项在“建立索引”和”搜索“,而不是实现具体的”分词“。Lucene支持对生成索引的进行”增,删,改,查“操作,这比自己建立的索引有了很大的进步。

  可以使用专门的分词程序进行分词,在分词的结果上用Lucene建立索引。

  2.用Lucene实现在一个或者多个字段中的检索

  主要是函数:MultiFieldQueryParser.parse(String[] query,String[] field,Occur[] occ,Analyzer analyzer);

      1)query:要查找的字符串数组

      2)field:要查找的字符串数组对应的字段(当然有可以相同的)

      3)occ:表示对应字段的限制。有三种:Occur.MUST(结果“与”), Occur.MUST_NOT(结果“差”),Occur.SHOULD(结果“或”)

      4)analyzer:对查询数据的分析器,最好与建立索引时用的分析器一致

  3.代码示例

  下面这个程序可以实现在一个字段“contents”中查找多个关键字。稍加修改也可以在多个字段查找多个关键字。

import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.queryParser.MultiFieldQueryParser;
import org.apache.lucene.search.BooleanClause.Occur;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;

public class MultiPhraseQuerySearcher {
    private static String indexPath = "E:\\Lucene\\index";    // 索引保存目录
    
    public static void createIndex(){    // 建立索引
       IndexWriter writer;
       try {
            writer = new IndexWriter(indexPath,new StandardAnalyzer(),true);
           
            Field fieldB1 = new Field("contents","今晚的辩题很道地:在我们这些人当中?",Field.Store.YES,Field.Index.TOKENIZED);
            Field fieldB2 = new Field("contents","我们为电影《今朝》是一部不错的影片。",Field.Store.YES,Field.Index.TOKENIZED);
            Field fieldB3 = new Field("contents","我们到底是啥意思呢?",Field.Store.YES,Field.Index.TOKENIZED);
            Document doc1 = new Document();
            Document doc2 = new Document();
            Document doc3 = new Document();
            doc1.add(fieldB1);
            doc2.add(fieldB2);
            doc3.add(fieldB3);
           
            writer.addDocument(doc1);
            writer.addDocument(doc2);
            writer.addDocument(doc3);
            writer.close();
       } 
       catch (Exception e) {
           e.printStackTrace();
       } 
    }
    
    public static void main(String[] args) {    //contests字段上查找含有"我们","今晚"这两个字段的Doument
       Query query;
       IndexSearcher searcher;
        try {
            //生成索引
            createIndex();
            searcher = new IndexSearcher(indexPath);
            //要查找的字符串数组
            String [] stringQuery={"我们","今晚"};
            //待查找字符串对应的字段
            String[] fields={"contents","contents"};
            //Occur.MUST表示对应字段必须有查询值, Occur.MUST_NOT 表示对应字段必须没有查询值
            Occur[] occ={Occur.MUST,Occur.MUST};
            
            query=MultiFieldQueryParser.parse(stringQuery,fields,occ,new StandardAnalyzer());
            Hits hits = searcher.search(query);
            for(int i=0;i<hits.length();i++)
                 System.out.println("Document内容为 : "+hits.doc(i));
            System.out.println("共检索出符合条件的Document "+hits.length()+" 个。");
       } 
       catch (Exception e) {} 
    }
}

 

    

  

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
notepad++ 查找引用(Find Reference)(适用于c c++及各类脚本比如lua、python等)
在程序开发过程中,程序员经常用到的一个功能就是查找引用(Find Reference),Visual Studio里面的对应功能是“查找所有引用”(Find All References)。     我在使用notepad++写代码的时候一开始一直因为找不到类似的功能而苦恼。
1337 0
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
9496 0
SQL查找列(字段)重复值及操作--整理
方法一: 1、查找表中多余的重复记录,重复记录是根据单个字段(peopleId)来判断select * from peoplewhere peopleId in (select   peopleId from   people group by   peopleId having coun...
723 0
多字段,任意组合条件查询(0建模) - 毫秒级实时圈人 实践
标签 PostgreSQL , 数组 , GIN索引 , 任意字段组合查询 , 圈人 , ToB分析型业务 , 建模 背景 你也许在一家ToB的数据分析公司,你可能设计了一张表(包括用户标识,及若干已经统计好的的属性值),你也许收集了一些用户的数据,你也许要为客户提供报表,你也许需要为客户提供任意属性值的组合查询,并快速的返回结果给用户。
7758 0
如何判断多个字段组成的关键字在另外一张表中是否存在
如何判断多个字段组成的关键字在另外一张表中是否存在 老帅(20141107) 1.首先判断一个关键字在另外一张表中是否存在很容易! SELECT * FROM a  WHERE a.ID  IN  ( SELECT b.ID  FROM b ) 2.如果判断的关键字有多个字段构成怎么办呢? 你不能在IN中使用多个字段。
707 0
如何查找BAPI SD_SALESDOCUMENT_CHANGE里字段对应的数据库存储表
如何查找BAPI SD_SALESDOCUMENT_CHANGE里字段对应的数据库存储表
9 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
13185 0
用lucene实现在一个(或者多个)字段中查找多个关键字
  最近跟着师兄们做个项目,我的任务就是负责做个“全文检索”的小模块。用到了Lucene的索引,下面的是其中的用Lucene实现在索引的一个字段(比如文章内容字段)进行查找多个关键字的实例代码。   1.Lucene说明   Lucene是非常优秀的成熟的开源的免费的纯java语言的全文索引检索工具包。
1075 0
+关注
旭东的博客
从事互联网开发工作,写博客,记录问题与学习支持,并分析
194
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载