elasticsearch使用指南之Elasticsearch Search API 概述与URI Search-阿里云开发者社区

elasticsearch使用指南之Elasticsearch Search API 概述与URI Search

2019-03-28 1802

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本节主要对elasticsearch search api做一个简单的介绍，重点介绍了QUERY_THEN_FETCH、QUERY_AND_FETCH、DFS_QUERY_THEN_FETCH三种搜索类型的工作方式。

本节开始，将详细介绍Search API。
1、Search API概述

详细API如下：

public final SearchResponse search(SearchRequest searchRequest, RequestOptions options) throws IOException
public final void searchAsync(SearchRequest searchRequest, RequestOptions options, ActionListener < SearchResponse> listener)

首先关注一下SearchRequest

SearchRequest类图如下：
clipboard

其关键属性说明如下：

private SearchType searchType = SearchType.DEFAULT：搜索类型。

QUERY_THEN_FETCH
首先根据路由算法向相关分片（多个）发送请求，此时只返回documentId与一些必要信息（例如用于排序等），然后对各个分片的结果进行汇聚，排序，然后选取客户端指定需要获取的数据条数（top n），然后根documentId再向各个分片请求具体的文档信息。首先根据路由算法向相关分片（多个）发送请求，此时只返回documentId与一些必要信息（例如用于排序等），然后对各个分片的结果进行汇聚，排序，然后选取客户端指定需要获取的数据条数（top n），然后根据documentId再向各个分片请求具体的文档信息。
QUERY_AND_FETCH
在5.4.x版本开始废弃，是直接向各个分片节点请求数据，每个分片返回客户端请求数量的文档信息，然后汇聚全部返回给客户端，返回的数据为客户端请求数量size (路由后的分片数量)。在5.4.x版本开始废弃，是直接向各个分片节点请求数据，每个分片返回客户端请求数量的文档信息，然后汇聚全部返回给客户端，返回的数据为客户端请求数量size (路由后的分片数量)。
DFS_QUERY_THEN_FETCH
在开始向各个节点发送请求之前，会进行一次词频、相关性的计算，后续流程与QUERY_THEN_FETCH相同，可以看出，该查询类型的文档相关性会更高，但性能比QUERY_THEN_FETCH要差。

private String[] indices：待查询的索引库。
private String routing：路由字段值。
private String preference：复制组内倾向性。
private SearchSourceBuilder source：查询主体(rerquest body)，后续会重点讲解。
private Boolean requestCache：是否开启查询缓存。
private Boolean allowPartialSearchResults：是否允许部分成功。
private Scroll scroll：滚动API(用于分页)
private int batchedReduceSize = DEFAULT_BATCHED_REDUCE_SIZE：批量归并size:默认为512
private int maxConcurrentShardRequests = 0：建议最大值别超过256，其核心含义待研究。
private int preFilterShardSize = 128，其核心作用待研究。
private String[] types：待查询的类型。

接下来再来重点关注一下查询API几个通用的参数：

timeout
查询的超时时间。
from
查询开始的偏移量，用于分页查询，类似于关系数据库的分页的start。默认值为0。
size
批量获取条数，用于分页查询。
search_type
查询类型，6.4.0只支持QUERY_THEN_FETCH与DFS_QUERY_THEN_FETCH。
request_cache
查询缓存，如果设置为false，取决于index级别的设置，将在索引管理API时详细讲解。
allow_partial_search_results
是否允许部分成功，例如一个查询请求，需要向3个分片发出请求，如果只有两个分片成功返回结果，另外一个出现故障，如果设置false，则会返回整体失败，如果设置为true，则会成功部分结果，默认为true。
terminate after
一个查询为每个分片最多收集的文档数，当达到该数量是，查询会提前结束。
batched_reduce_size
在协调节点上应该立即减少一次请求需要访问的分片数量，如果一次请请求需要汇聚太多节点上的数据，容易造成内存消耗，该值可作为一个保护机制，控制一个请求同一时间并发访问的最大分片数量，默认为512。

注意：search_type, request_cache 和allow_partial_search_results 这三个参数，必须查询url级别的参数(query-string parameters),如果使用Rest low Level API时需要特别留意。

2、URI Search
Elasticsearch支持使用URI请求模式来使用Search API，尽管有些参数无法使用，该模式主要还是用于测试，诸如使用CURL查询命令。URI Search示例如下：

GET twitter/_search?q=user:kimchy

URI Search支持如下参数：

q
定义查询字符串，其语法映射为DSL查询语法之query_string。
df
查询字符串未使用字段前缀时定义的默认字段。
analyzer
针对查询字符串使用的分词器。
analyze_wildcard
是否分析通配符合前缀查询，默认值为false。
batched_reduce_size
控制协调节点批量发送分片的最大个数，主要是控制协调节点内存的消耗而提供的一种保护机制。
default_oprator
默认操作类型，可选值为and、or，默认值为or。
lenient
是否支持类型转换异常，默认为fasle，表示如果将一个字符类型传递给一个数字类型，默认为抛出异常，如果设置true，则忽略该异常。
explain
类似于执行计划，表示对于每一个命中，包含如果得分是如何算出来的，默认为false。
_source
用于对_source字段进行过滤，可以设置false来禁止返回_souce字段，也可以支持通配符，例如obj.*，用于字段过滤。
stored_fields
用于字段过滤，已在字段过滤部分详细介绍过。
sort
排序，可以类似于关系型数据库的排序语法：fieldName:asc | desc，也可以使用特殊字段_score(表示按分数，默认值)。
track_scores
当使用排序时，跟踪返回结果中分数计算过程。
track_total_hits
默认值为true，表示在返回结果中返回满足该查询条件的所有记录数。
timeout
查询超时时间，默认永不超时。
terminate_after
是否开启提前结束查询，主要是控制一次查询，从一个分片中返回的最大文档数量，如果开启，返回结果中会包含一个响应参数terminated_early，指示是否提前结束。
from
用于分页，起始记录数。
size
用于分页，控制一次查询，从每个分片查询的记录条数。
search_type
查询类型，对应SearchType searchType，已在文章开头处介绍。
allow_partial_search_results
是否允许部分分片执行失败，默认为true，也可以集群配置参数：search.default_allow_partial_results来设置默认值。

本节主要是对Elasticsearch Search API有一个概要的认识与如何使用URI进行查询，从下一节开始将深入到Search API各个细节中去，以便大家对Search API的运用得心应手。

elasticsearch使用指南之Elasticsearch Search API 概述与URI Search

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

elasticsearch使用指南之Elasticsearch Search API 概述与URI Search

热门文章

最新文章

相关课程

相关电子书