DSL语法、搜索结果处理

2025-12-30 343

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS DuckDB + QuickBI 企业套餐，8核32GB + QuickBI 专业版

简介： 本节深入探讨Elasticsearch的搜索功能，涵盖DSL与RestClient实现方式。重点解析全文检索（match、multi_match）、精确查询（term、range）、地理坐标查询（geo_distance、geo_bounding_box）及复合查询，结合实例演示语法与应用场景，提升数据检索效率。

在前面的学习中，笔者带领大家完成海量数据导入ES，实现了ES基本的存储功能，但是我们知道ES最擅长的还是搜索、数据分析。所以本节笔者将继续带领大家研究一下ES的数据搜索功能，同上节一样，继续分别采用DSL和RestClient实现搜索。
1.DSL查询文档
elasticsearch的查询依然是基于JSON风格的DSL来实现的。
1.1.DSL查询分类
Elasticsearch提供了基于JSON的DSL（Domain Specific Language）来定义查询。常见的查询类型包括：
● 查询所有：查询出所有数据，一般测试用。例如：match_all
● 全文检索（full text）查询：利用分词器对用户输入内容分词，然后去倒排索引库中匹配。例如：
○ match_query
○ multi_match_query
● 精确查询：根据精确词条值查找数据，一般是查找keyword、数值、日期、boolean等类型字段。例如：
○ ids
○ range
○ term
● 地理（geo）查询：根据经纬度查询。例如：
○ geo_distance
○ geo_bounding_box
● 复合（compound）查询：复合查询可以将上述各种查询条件组合起来，合并查询条件。例如：
○ bool
○ function_score
查询的语法基本一致：
GET /indexName/_search
{
"query": {
"查询类型": {
"查询条件": "条件值"
}
}
}
我们以查询所有为例，其中：
● 查询类型为match_all
● 没有查询条件
// 查询所有
GET /indexName/_search
{
"query": {
"match_all": {
}
}
}
其它查询无非就是查询类型、查询条件的变化。
1.2.全文检索查询
1.2.1.使用场景
全文检索查询的基本流程如下：
● 对用户搜索的内容做分词，得到词条
● 根据词条去倒排索引库中匹配，得到文档id
● 根据文档id找到文档，返回给用户
比较常用的场景包括：
● 商城的输入框搜索
● 百度输入框搜索
例如京东：

因为是拿着词条去匹配，因此参与搜索的字段也必须是可分词的text类型的字段。
1.2.2.基本语法
常见的全文检索查询包括：
● match查询：单字段查询
● multi_match查询：多字段查询，任意一个字段符合条件就算符合查询条件
match查询语法如下：
GET /indexName/_search
{
"query": {
"match": {
"FIELD": "TEXT"
}
}
}
mulit_match语法如下：
GET /indexName/_search
{
"query": {
"multi_match": {
"query": "TEXT",
"fields": ["FIELD1", " FIELD12"]
}
}
}
1.2.3.示例
match查询示例：

GET /hotel182/_search
{
"query": {
"match": {
"name": "如家"
}
}
}

multi_match查询示例：

GET /hotel182/_search
{
"query": {
"multi_match": {
"query": "如家",
"fields": ["brand", "name"]
}
}
}
可以看到，两种查询结果是一样的：因为我们将brand、name、business值都利用copy_to复制到了all字段中。因此你根据三个字段搜索，和根据all字段搜索效果当然一样了。但是，搜索字段越多，对查询性能影响越大，因此建议采用copy_to，然后单字段查询的方式。
1.2.4.总结
match和multi_match的区别是什么？
● match：根据一个字段查询
● multi_match：根据多个字段查询，参与查询字段越多，查询性能越差
1.3.精准查询
精确查询一般是查找keyword、数值、日期、boolean等类型字段。所以不会对搜索条件分词。常见的有：
● term：根据词条精确值查询
● range：根据值的范围查询
1.3.1.term查询
因为精确查询的字段搜是不分词的字段，因此查询的条件也必须是不分词的词条。查询时，用户输入的内容跟自动值完全匹配时才认为符合条件。如果用户输入的内容过多，反而搜索不到数据。语法说明：
// term查询
GET /indexName/_search
{
"query": {
"term": {
"FIELD": {
"value": "VALUE"
}
}
}
}
示例：当我搜索的是精确词条时，能正确查询出结果：

精确查询：term查询

GET /hotel182/_search
{
"query": {
"term": {
"brand": {
"value": "希尔33顿"
}
}
}
}
但是，当我搜索的内容不是词条，而是多个词语形成的短语时，反而搜索不到：

1.3.2.range查询
范围查询，一般应用在对数值类型做范围过滤的时候。比如做价格范围过滤。基本语法：
// range查询
GET /indexName/_search
{
"query": {
"range": {
"FIELD": {
"gte": 10, // 这里的gte代表大于等于，gt则代表大于
"lte": 20 // lte代表小于等于，lt则代表小于
}
}
}
}
示例：

精确查询：range查询

GET /hotel182/_search
{
"query": {
"range": {
"price": {
"gte": 100,
"lte": 200
}
}
}
}
1.3.3.总结
精确查询常见的有哪些？
● term查询：根据词条精确匹配，一般搜索keyword类型、数值类型、布尔类型、日期类型字段
● range查询：根据数值范围查询，可以是数值、日期的范围
1.4.地理坐标查询
所谓的地理坐标查询，其实就是根据经纬度查询，官方文档：链接，常见的使用场景包括：
● 携程：搜索我附近的酒店
● 滴滴：搜索我附近的出租车
● 微信：搜索我附近的人
附近的酒店：

附近的车：

1.4.1.矩形范围查询
矩形范围查询，也就是geo_bounding_box查询，查询坐标落在某个矩形范围的所有文档：

查询时，需要指定矩形的左上、右下两个点的坐标，然后画出一个矩形，落在该矩形内的都是符合条件的点。
语法如下：
// geo_bounding_box查询
GET /indexName/_search
{
"query": {
"geo_bounding_box": {
"FIELD": {
"top_left": { // 左上点
"lat": 31.1,
"lon": 121.5
},
"bottom_right": { // 右下点
"lat": 30.9,
"lon": 121.7
}
}
}
}
}
这种并不符合“附近的人”这样的需求，所以我们就不做了。
1.4.2.附近查询
附近查询，也叫做距离查询（geo_distance）：查询到指定中心点小于某个距离值的所有文档。
换句话来说，在地图上找一个点作为圆心，以指定距离为半径，画一个圆，落在圆内的坐标都算符合条件：

语法说明：
// geo_distance 查询
GET /indexName/_search
{
"query": {
"geo_distance": {
"distance": "15km", // 半径
"FIELD": "31.21,121.5" // 圆心
}
}
}
示例，我们先搜索陆家嘴附近15km的酒店：

发现共有47家酒店。然后把半径缩短到3公里：

DSL语法、搜索结果处理

精确查询：term查询

精确查询：range查询

大数据与机器学习

热门文章

最新文章

相关电子书