lucene 查询语法

简介: Lucene所支持的查询语法可见http://lucene.apache.org/java/3_0_1/queryparsersyntax.html   新版6.0.0可见 : http://lucene.apache.org/core/6_0_0/queryparser/org/apache/lucene/queryparser/classic/package-summary.ht

Lucene所支持的查询语法可见http://lucene.apache.org/java/3_0_1/queryparsersyntax.html  

新版6.0.0可见 : http://lucene.apache.org/core/6_0_0/queryparser/org/apache/lucene/queryparser/classic/package-summary.html#package_description

(1) 语法关键字

+ - && || ! ( ) { } [ ] ^ " ~ * ? : \ /

如果所要查询的查询词中本身包含关键字,则需要用\进行转义。

(2) 查询词(Term)

Lucene支持两种查询词,一种是单词,如"hello",一种是词组(phrase),如"hello world"。

title: hello 表示查询在title域中含有hello单词的文档。

title: "hello world" 表示查询在title域中含有hello world 词组的文档。

title:(hello world) 表示查询在title域中含有hello 与 world 单词的文档。

(3) 查询域(Field)

在查询语句中,可以指定从哪个域中寻找查询词,如果不指定,则从默认域中查找。

查询域和查询词之间用:分隔,如title:"Do it right"。

:仅对紧跟其后的查询词起作用,如果title:Do it right,则仅表示在title中查询Do,而it right要在默认域中查询。

(4) 通配符查询(Wildcard)

支持两种通配符:?表示一个字符,*表示多个字符。

通配符可以出现在查询词的中间或者末尾,如te?t,test*,te*t,但决不能出现在开始,如*test,?test。

(5) 模糊查询(Fuzzy)

模糊查询的算法是基于Levenshtein Distance,也即当两个词的差别小于某个比例的时候,就算匹配,如roam~0.8,即表示差别小于0.2,相似度大于0.8才算匹配。

(6) 临近查询(Proximity)

在词组后面跟随~10,表示词组中的多个词之间的距离之和不超过10,则满足查询。

所谓词之间的距离,即查询词组中词为满足和目标词组相同的最小移动次数。

如索引中有词组"apple boy cat"。

如果查询词为"apple boy cat"~0,则匹配。

如果查询词为"boy apple cat"~2,距离设为2方能匹配,设为1则不能匹配。

(0)

boy

apple

cat

(1)

 

boy

apple

cat

(2)

apple

boy

cat

如果查询词为"cat boy apple"~4,距离设为4方能匹配。

(0)

cat

boy

apple

(1)

 

cat

boy

apple

(2)

 

boy

cat

apple

(3)

 

boy

apple

cat

(4)

apple

boy

cat

 

(7) 区间查询(Range)

区间查询包含两种,一种是包含边界,用[A TO B]指定,一种是不包含边界,用{A TO B}指定。

如date:[20020101 TO 20030101],当然区间查询不仅仅用于时间,如title:{Aida TO Carmen}

(8) 增加一个查询词的权重(Boost)

可以在查询词后面加^N来设定此查询词的权重,默认是1,如果N大于1,则说明此查询词更重要,如果N小于1,则说明此查询词更不重要。

如jakarta^4 apache,"jakarta apache"^4 "Apache Lucene"

(9) 布尔操作符

布尔操作符包括连接符,如AND,OR,和修饰符,如NOT,+,-。

默认状态下,空格被认为是OR的关系,QueryParser.setDefaultOperator(Operator.AND)设置为空格为AND。

+表示一个查询语句是必须满足的(required),NOT和-表示一个查询语句是不能满足的(prohibited)。

(10) 组合

可以用括号,将查询语句进行组合,从而设定优先级。

如(jakarta OR apache) AND website

 

Lucene的查询语法是由QueryParser来进行解析,从而生成查询对象的。

通过编译原理我们知道,解析一个语法表达式,需要经过词法分析和语法分析的过程,也即需要词法分析器和语法分析器。

QueryParser是通过JavaCC来生成词法分析器和语法分析器的。

目录
相关文章
|
Prometheus 监控 数据可视化
Grafana 插件生态系统:扩展你的监控能力
【8月更文第29天】Grafana 是一个流行的开源平台,用于创建和共享统计数据的仪表板和可视化。除了内置的支持,Grafana 还有一个强大的插件生态系统,允许用户通过安装插件来扩展其功能。本文将介绍一些 Grafana 社区提供的插件,并探讨它们如何增强仪表盘的功能性。
1244 3
|
网络协议 Java 测试技术
配置中心原理和选型:Disconf、Apollo、Spring Cloud Config 和 Nacos
学完注册中心,再看配置中心这块,感觉简单很多,因为很多知识原理是相辅相成的
9140 0
配置中心原理和选型:Disconf、Apollo、Spring Cloud Config 和 Nacos
|
关系型数据库 MySQL Linux
PHP语言的优缺点是什么?
【7月更文挑战第14天】PHP语言的优缺点是什么?
438 6
|
Java 开发工具 git
Local History里没记录??IDEA代码丢失的解决办法
Local History里没记录??IDEA代码丢失的解决办法
Local History里没记录??IDEA代码丢失的解决办法
|
算法 Java API
java BigDecimal使用详细介绍
java BigDecimal使用详细介绍
531 0
java BigDecimal使用详细介绍
|
网络协议 应用服务中间件 nginx
nginx 转发 rtmp 直播流
nginx 转发 rtmp 直播流
1230 0
|
C语言
C语言中逻辑表达式的深入探讨
C语言中逻辑表达式的深入探讨
929 0
|
存储 缓存 关系型数据库
小红书万亿级社交网络关系下的图存储系统的架构设计与实践
本文将为你分享小红书面向超大规模社交网络的图存储系统REDtao的架构设计与技术实践过程,希望能带给你启发。
756 0
|
JSON 自然语言处理 API
北大、西湖大学等开源「裁判大模型」PandaLM:三行代码全自动评估LLM,准确率达ChatGPT的94%
北大、西湖大学等开源「裁判大模型」PandaLM:三行代码全自动评估LLM,准确率达ChatGPT的94%
1020 0
|
自然语言处理 数据可视化 算法
ElasticSearch学习笔记(三)-可视化界面Kibana及ES中文分词配置
ElasticSearch学习笔记(三)-可视化界面Kibana及ES中文分词配置
ElasticSearch学习笔记(三)-可视化界面Kibana及ES中文分词配置