《Elastic Stack 实战手册》——三、产品能力——3.4.入门篇——3.4.2.Elasticsearch基础应用——3.4.2.12.Reindex API(1) https://developer.aliyun.com/article/1230250
API 介绍
RESTful API
POST /_reindex
Query parameters
refresh
可选参数,枚举类型 (true,false,wait_for),默认值为 false。
如果设置为 true, Elasticsearch 刷新受当前操作影响的数据,能够被立即搜索(即立即刷新,但是会对 Elasticsearch 的性能有一定的影响)。如果为 wait_for,则等待刷新以使当前操作对搜索可见,等待时间为默认为 1s(index.refresh_interval)。如果为 false,本次请求不执行刷新。
timeout
可选参数,时间值(time units),默认值为 1 分钟;每个索引周期中等待索引自动创建、动态映射更新,和等待活跃健康分片等的时间。该参数可以确保 Elasticsearch 在失败之前,基本等待的超时时间。实际等待时间可能更长,特别是在发生多个等待时。
wait_for_active_shards
可选参数,参数类型 string,默认值为 1(即只要一个分片处于活跃就可以执行该操作)。在执行 Reindex 之前索引必须处于活动状态的分片副本数,可以设置为 all 或者小于 number_of_replicas+1 的任何正整数,比如你的索引主分片数目为 3,副本设置为 2,那么可以设置的最大正整数为 3,即副本份数加 1 (主分片)。
#因为实操集群只有三个节点,如下索引将会出现副本分片无法分配, #index.routing.allocation.total_shards_per_node #控制每个该索引只允许每个节点分配一个分片 PUT reindex_index-name-2 { "settings" :{ "index" :{ "number_of_shards" : "3", "number_of_replicas" : "2" }, "index.routing.allocation.total_shards_per_node":1 } } #插入一条数据 PUT reindex_index-name-1/_bulk { "index":{ } } { "@timestamp": "2099-05-06T16:21:15.000Z", "message": "192.0.2.42 - - [06/May/2099:16:21:15 +0000] \"GET /images/bg.jpg HTTP/1.0\" 200 24736" } #重建索引 POST _reindex?wait_for_active_shards=2&timeout=5s { "source": { "index": "reindex_index-name-1" }, "dest": { "index": "reindex_index-name-2" } }
由于reindex_index-name-2只有主分片分配成功,所以上面的_reindex将失败:
{ "took" : 5002, "timed_out" : false, "total" : 1, "updated" : 0, "created" : 0, "deleted" : 0, "batches" : 1, "version_conflicts" : 0, "noops" : 0, "retries" : { "bulk" : 0, "search" : 0 }, "throttled_millis" : 0, "requests_per_second" : -1.0, "throttled_until_millis" : 0, "failures" : [ { "index" : "reindex_index-name-2", "type" : "_doc", "id" : "U_i8VnkBYYHWy1KlBJjc", "cause" : { "type" : "unavailable_shards_exception", "reason" : "[reindex_index-name-2][0] Not enough active copies to meet shard count of [2] (have 1, needed 2). Timeout: [5s], request: [BulkShardRequest [[reindex_index-name-2][0]] containing [index {[reindex_index-name-2][_doc][U_i8VnkBYYHWy1KlBJjc], source[{ \"@timestamp\": \"2099-05-06T16:21:15.000Z\", \"message\": \"192.0.2.42 - - [06/May/2099:16:21:15 +0000] \\\"GET /images/bg.jpg HTTP/1.0\\\" 200 24736\" }]}]]" }, "status" : 503 } ] }
wait_for_completion
可选参数,参数类型Boolean,默认为true。如果为true,则请求为阻塞同步方式,请求会等到操作完成才返回。
requests_per_second
可选参数,参数类型integer,默认为 -1(不进行限制);限制请求的每秒子请求数。
require_alias
可选参数,参数类型Boolean,默认为true。如果为true,dest.index必须为索引别名。
scroll
可选参数,参数类型为时间类型( time units),指定滚动搜索时索引的一致视图应保持多长时间。
slices
可选参数,参数类型integer,默认值为1(不切分成多个子任务);该参数表示将一个任务切分成多少个子任务,并行执行。
max_docs
可选参数,参数类型integer,默认值为对应索引的所有文档;要处理的最大文档数。
Request Body
conflicts
可选参数,参数类型枚举类型,默认为abort;设置为proceed,即使发生文档冲突也继续
reindexing。
source
l index
l 必填参数,参数类型 string;值可以为数据流、索引名字、索引别名,如果源有多个,也可以接受逗号分隔的数据源数组。
l max_docs
l 可选参数,参数类型integer;要被重新索引的最大文档数目。
l query
l 可选参数,参数类型查询对象(query object),按查询 DSL 过滤需要重新索引的文档。
l remote
l remote 的子参数可接受如下:
l size
l 可选参数,参数类型 integer; 每批要索引的文档数(批处理),在远程索引时确保批处理能够放在堆上缓冲区,缓冲区的默认大小为100 MB。
l slice
l slice的子参数可接受如下:
l sort
l 可选参数,参数类型 list;以逗号分隔的 : 对列表(比如name:desc),用于在获取源索引文档时,按照 sort 中字段值的排序要求进行排序。通常与max_docs参数结合使用,以控制哪些文档需要被重新索引。
l 注意:sort 参数在 7.6 版本已经被标注弃用,不建议在 Reindex 中进行排序。 Reindex 中的排序不能保证按顺序索引文档,并阻止 Reindex 的进一步发展,如恢复能力和性能改进。如果与结合使用max_docs,请考虑改为使用查询过滤器。
l _source
l 可选参数,参数类型string,默认值为 true。该参数可以用于选择文档中哪些字段需要进行重新索引。如果设置为 true,将会重索引文档中的所有字段。
dest
l index
l 必填参数,参数类型 string;该参数表示目的地的表,值可以为数据流、索引名字、索引别名。
l version_type
l 可选参数,参数类型枚举;用于索引操作的版本控制;枚举值包括:internal, external,
l external_gt,external_gte。
l 详情参看 Version types:https://www.elastic.co/guide/en/elasticsearch/reference/7.10/docs-index_.html#index-version-types
l op_type
l 可选参数,参数类型枚举,默认为 index,枚举值包括:index,create;如果设置为create,则目标索引不存在该文档就创建(可用于reindex续传补偿)。注意:如果dest是数据流,必须设置为create,因为数据流只做append。
l type
l 可选参数,参数类型 string,默认值为 _doc;被重建索引的文档中文档类型;注意:该参数在 Elasticsearch 6 版本中已经标记弃用,已经没有任何实际意义。
script
l source
l 可选参数,参数类型 string;重新索引时用于更新文档 source 或元数据的脚本。
l lang
l 可选参数,参数类型枚举;支持的脚本语言:painless, expression, mustache, java更多脚本语言,请参考 Scripting:https://www.elastic.co/guide/en/elasticsearch/reference/7.10/modules-scripting.html
《Elastic Stack 实战手册》——三、产品能力——3.4.入门篇——3.4.2.Elasticsearch基础应用——3.4.2.12.Reindex API(3) https://developer.aliyun.com/article/1230246