Elasticsearch Index Setting一览表

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
日志服务 SLS,月写入数据量 50GB 1个月
简介: Elasticsearch Index Setting一览表

索引的配置项按是否可以更改分为static属性与动态配置,所谓的静态配置即索引创建后不能修改。


image.png

  • index.number_of_shards
    索引分片的数量。在ES层面可以通过es.index.max_number_of_shards属性设置索引最大的分片数,默认为1024,index.number_of_shards的默认值为Math.min(es.index.max_number_of_shards,5),故通常默认值为5。
  • index.shard.check_on_startup
    分片在打开之前是否应该检查该分片是否损坏。当检测到损坏时,它将阻止分片被打开。可选值:false:不检测;checksum:只检查物理结构;true:检查物理和逻辑损坏,相对比较耗CPU;fix:类同与false,7.0版本后将废弃。默认值:false。
  • index.codec
    数据存储的压缩算法,默认值为LZ4,可选择值best_compression ,比LZ4可以获得更好的压缩比(即占据较小的磁盘空间,但存储性能比LZ4低)。
  • index.routing_partition_size
    路由分区数,如果设置了该参数,其路由算法为:(hash(_routing)  +  hash(_id) % index.routing_parttion_size  ) % number_of_shards。如果该值不设置,则路由算法为  hash(_routing) % number_of_shardings,_routing默认值为_id。


image.png

  • index.number_of_replicas
    索引复制分片的个数,默认值1,该值必须大于等于0,索引创建后该值可以变更。
  • index.auto_expand_replicas
    副本数是否自动扩展,可设置(e.g0-5)或(0-all)。
  • index.refresh_interval
    执行刷新操作的频率,该操作使对索引的最新更改对搜索可见。默认为1s。可以设置为-1以禁用刷新。
  • index.max_result_window
    控制分页搜索总记录数,from + size的大小不能超过该值,默认为10000。
  • index.max_inner_result_window
    从from+ size的最大值,用于控制top aggregations,默认为100。内部命中和顶部命中聚合占用堆内存,并且时间与    from + size成正比,这限制了内存。
  • index.max_rescore_window
    在rescore的搜索中,rescore请求的window_size的最大值。
  • index.max_docvalue_fields_search
    一次查询最多包含开启doc_values字段的个数,默认为100。
  • index.max_script_fields
    查询中允许的最大script_fields数量。默认为32。
  • index.max_ngram_diff
    NGramTokenizer和NGramTokenFilter的min_gram和max_gram之间允许的最大差异。默认为1。
  • index.max_shingle_diff
    对于ShingleTokenFilter, max_shingle_size和min_shingle_size之间允许的最大差异。默认为3。
  • index.blocks.read_only
    索引数据、索引元数据是否只读,如果设置为true,则不能修改索引数据,也不能修改索引元数据。
  • index.blocks.read_only_allow_delete
    与index.blocks.read_only基本类似,唯一的区别是允许删除动作。
  • index.blocks.read
    设置为true以禁用对索引数据的读取操作。
  • index.blocks.write
    设置为true以禁用对索引数据的写操作。(针对索引数据,而不是索引元数据)
  • index.blocks.metadata
    设置为true,表示不允许对索引元数据进行读与写。
  • index.max_refresh_listeners
    索引的每个分片上当刷新索引时最大的可用监听器数量。这些侦听器用于实现refresh=wait_for。
  • index.highlight.max_analyzed_offset
    高亮显示请求分析的最大字符数。此设置仅适用于在没有偏移量或term vectors的文本字段时。默认情况下,该设置在6中未设置。x,默认值为-1。
  • index.max_terms_count
    可以在terms查询中使用的术语的最大数量。默认为65536。
  • index.routing.allocation.enable Allocation机制,其主要解决的是如何将索引在ES集群中在哪些节点上分配分片(例如在Node1是创建的主分片,在其他节点上创建复制分片)。举个例子,如果集群中新增加了一个节点,集群的节点由原来的3个变成了4 可选值:
  1. all
    所有类型的分片都可以重新分配,默认。
  2. primaries
    只允许分配主分片。
  3. new_primaries
    只允许分配新创建的主分片。
  4. none
    所有的分片都不允许分配。
  • index.routing.rebalance.enable 索引的分片重新平衡机制。可选值如下:
  1. all
    默认值,允许对所有分片进行再平衡。
  2. primaries
    只允许对主分片进行再平衡。
  3. replicas
    只允许对复制分片进行再平衡。
  4. none
    不允许对任何分片进行再平衡


  • index.gc_deletes
    文档删除后(删除后版本号)还可以存活的周期,默认为60s。
  • index.max_regex_length
    用于正在表达式查询(regex query)正在表达式长度,默认为1000。
  • index.default_pipeline
    默认的管道聚合器。


image.png

分析模块相关配置参数,将在后续分析模块部分介绍。


image.png

索引分片分配相关参数。这部分内容将在Cluster(集群模块详细介绍)。


image.png

字段映射相关参数,详情请参考:Elasticsearch Mapping parameters(主要参数一览)


image.png

后台分片合并进程相关配置参数。


  • index.merge.scheduler.max_thread_count
    用于单个分片节点合并的最大线程数量,默认值为:Math.max(1, Math.min(4, Runtime.getRuntime().availableProcessors() / 2)),如果是非SSD盘,该值建议设置为1。


image.png

相似性相关配置,这个后续可能会以专题介绍,暂不深究。


image.png

慢查询日志相关配置。


Search Show Log


首先ES提供在查询阶段(query)和数据获取阶段(fetch)设置阔值,超过该阔值则记录日志。


支持如下参数:


1index.search.slowlog.threshold.query.warn: 10s
2index.search.slowlog.threshold.query.info: 5s
3index.search.slowlog.threshold.query.debug: 2s
4index.search.slowlog.threshold.query.trace: 500ms


上述参数定义查询阶段的阔值,分别表示,如果执行时间超过10s,打出警告日志,超过5s输出info级别日志。


上述参数定义查询获取数据(fetch)的阔值,分别表示,如果执行时间超过1s,打出警告日志,超过800ms输出info级别日志。


index.search.slowlog.level: info

定义日志输出级别为info,也就是hdebug,trace级别的日志不输出。


注意:上述日志级别为分片级日志。


上述参数定义了日志输出级别,那接下来还需要在log4j文件中定义日志输出器,日志输出文件路径等,其相关配置如下:


1appender.index_search_slowlog_rolling.type = RollingFile
 2appender.index_search_slowlog_rolling.name = index_search_slowlog_rolling
 3appender.index_search_slowlog_rolling.fileName = ${sys:es.logs}_index_search_slowlog.log
 4appender.index_search_slowlog_rolling.layout.type = PatternLayout
 5appender.index_search_slowlog_rolling.layout.pattern = [%d{ISO8601}][%-5p][%-25c] [%node_name]%marker %.10000m%n
 6appender.index_search_slowlog_rolling.filePattern = ${sys:es.logs}_index_search_slowlog-%d{yyyy-MM-dd}.log
 7appender.index_search_slowlog_rolling.policies.type = Policies    // 文件切割方案,属于log4j的语法
 8appender.index_search_slowlog_rolling.policies.time.type = TimeBasedTriggeringPolicy  // 基于时间切割,log4j还支持按大小切割,其类为SizeBasedTriggeringPolicy。
 9appender.index_search_slowlog_rolling.policies.time.interval = 1                                       // 1小时切割成一个文件
10appender.index_search_slowlog_rolling.policies.time.modulate = true                               //  是否修正时间范围, 如果设置为true,则从0时开始计数
11
12logger.index_search_slowlog_rolling.name = index.search.slowlog
13logger.index_search_slowlog_rolling.level = trace
14logger.index_search_slowlog_rolling.appenderRef.index_search_slowlog_rolling.ref = index_search_slowlog_rolling
15logger.index_search_slowlog_rolling.additivity = false


Index Show Log


索引慢日志。


1index.indexing.slowlog.threshold.index.warn: 10s
2index.indexing.slowlog.threshold.index.info: 5s
3index.indexing.slowlog.threshold.index.debug: 2s
4index.indexing.slowlog.threshold.index.trace: 500ms
5index.indexing.slowlog.level: info
6index.indexing.slowlog.source: 1000


index.indexing.slowlog.source参数用来控制记录文档_souce字段字符的个数,默认为1000,表示只记录_souce字段的前1000个字符,可以设置true,表示输出_souce字段全部内容,设置为false,表示不记录_souce字段的内容。


默认情况下,会对_souce字段的输出进行格式化,通常使用一行输出,如果想阻止格式化,可以通过index.indexing.slowlog.reformat设置为false来避免。


同样通过上述属性定义好阔值,接下来将在logg4j配置文件中定义日志的输出。


1appender.index_indexing_slowlog_rolling.type = RollingFile
 2appender.index_indexing_slowlog_rolling.name = index_indexing_slowlog_rolling
 3appender.index_indexing_slowlog_rolling.fileName = ${sys:es.logs}_index_indexing_slowlog.log
 4appender.index_indexing_slowlog_rolling.layout.type = PatternLayout
 5appender.index_indexing_slowlog_rolling.layout.pattern = [%d{ISO8601}][%-5p][%-25c] [%node_name]%marker %.-10000m%n
 6appender.index_indexing_slowlog_rolling.filePattern = ${sys:es.logs}_index_indexing_slowlog-%d{yyyy-MM-dd}.log
 7appender.index_indexing_slowlog_rolling.policies.type = Policies
 8appender.index_indexing_slowlog_rolling.policies.time.type = TimeBasedTriggeringPolicy
 9appender.index_indexing_slowlog_rolling.policies.time.interval = 1
10appender.index_indexing_slowlog_rolling.policies.time.modulate = true
11
12logger.index_indexing_slowlog.name = index.indexing.slowlog.index
13logger.index_indexing_slowlog.level = trace
14logger.index_indexing_slowlog.appenderRef.index_indexing_slowlog_rolling.ref = index_indexing_slowlog_rolling
15logger.index_indexing_slowlog.additivity = false

image.png

存储模块,其主要参数为:index.store.type,表示存储类型,该参数为静态参数,在索引创建时指定,无法更改。


其可选值:


  • fs
    默认文件系统实现,根据当前操作系统选择最佳存储方式。
  • simplefs
    简单的FS类型,使用随机访问文件实现文件系统存储(映射到Lucene SimpleFsDirectory)。并发性能很差(多线程会出现瓶颈)。当需要索引持久性时,通常最好使用niofs。
  • niofs
    基于NIOS实现的文件系统,该类型使用NIO在文件系统上存储碎片索引(映射到Lucene NIOFSDirectory)。它允许多个线程同时从同一个文件中读取数据。
  • mmapfs
    基于文件内存映射机制实现的文件系统实现,该方式将文件映射到内存(MMap)来存储文件系统上的碎片索引(映射到Lucene MMapDirectory)。内存映射使用进程中与被映射文件大小相同的部分虚拟内存地址空间。
    可以通过node.store.allow_mmapfs属性来禁用基于内存映射机制,如果节点所在的操作系统没有大量的虚拟内存,则可以使用该属性明确禁止使用该文件实现。

image.png

由于Lucene提交的开销太大,不能每个单独变更就提交(刷写到磁盘),所以每个分片复制都有一个事务日志,称为translog。所有索引(index)和删除(delete)操作都是在被内部Lucene索引处理之后(但在它们被确认之前[返回客户端])写入translog的。在发生崩溃的情况下,当分片恢复时,可以从translog中恢复最近已确认但尚未包含在上一次Lucene提交中的事务。


Translog日志有点类似于关系型数据库mysql的redo日志。


Translog相关配置参数(索引级别):


  • index.translog.durability
    translog刷盘方式,可选值:request、async。request,即每请求一次刷盘,也就是客户端发起一个增删改操作时,会在主分片与复制分片全部刷盘成功后,才会返回成功,是ES的默认模式。async:异步刷盘模式,此模式刷盘频率由index.translog.sync_interval设置,其默认值为5s,该模式会存在数据丢失的可能。
  • index.translog.sync_interval
    如果index.translog.durability设置为async,用该值来设置刷盘的频率,默认为5s。
  • index.translog.flush_threshold_size
    es强制刷新的另外一个维度,如果translog的大小达到该值,则强制将未刷盘的数据强制刷新到Lucene中(类比一下关系型数据库的数据文件),默认512mb。
  • index.translog.retention.size
    保存跨日志文件的总大小。也就是一translog日志文件flush后,并不马上删除,而是保留一段时间,但最新的translog文件已存储的内容与待删除的文件的间隔不超过该参数设置的值,默认为512M。
  • index.translog.retention.age
    保存translog文件的最大持续时间,默认为12 h。


关于ES的配置属性就先介绍到这里,后续还会对Analysis、Index Shard Allocation、Similarities这三个模块进行更加详细的说明。



相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
5月前
|
存储 API 数据库
检索服务elasticsearch索引(Index)
【8月更文挑战第23天】
76 6
|
7月前
|
存储
Elasticsearch exception [type=cluster_block_exception, reason=blocked by: [FORBIDDEN/12/index r【已解决】
Elasticsearch exception [type=cluster_block_exception, reason=blocked by: [FORBIDDEN/12/index r【已解决】
161 1
|
8月前
|
索引
Elasticsearch exception [type=illegal_argument_exception, reason=index [.1] is the write index for data stream [slowlog] and cannot be deleted]
在 Elasticsearch 中,你尝试删除的索引是一个数据流(data stream)的一部分,而且是数据流的写入索引(write index),因此无法直接删除它。为了解决这个问题,你可以按照以下步骤进行操作:
552 0
|
8月前
|
API 索引
Elasticsearch Index Shard Allocation 索引分片分配策略
Elasticsearch Index Shard Allocation 索引分片分配策略
156 1
|
监控 Java 关系型数据库
Elasticsearch之索引管理API(Index management)
Elasticsearch之索引管理API(Index management)
Elasticsearch之索引管理API(Index management)
|
API
Elasticsearch - cluster_block_exception [FORBIDDEN/12/index read-only / allow delete (api)]
Elasticsearch - cluster_block_exception [FORBIDDEN/12/index read-only / allow delete (api)]
132 0
Elasticsearch - cluster_block_exception [FORBIDDEN/12/index read-only / allow delete (api)]
|
存储 缓存 自然语言处理
Elasticsearch倒排索引(二)深入Term Index
Elasticsearch倒排索引(二)深入Term Index
466 0
|
运维 Linux API
【ElasticSearch实战】——ElasticSearch6 报错FORBIDDEN/12/index read-only / allow delete (api)
【ElasticSearch实战】——ElasticSearch6 报错FORBIDDEN/12/index read-only / allow delete (api)
412 0
|
存储 JSON 应用服务中间件
【Elastic Engineering】Elasticsearch 中的一些重要概念: cluster, node, index, document, shards 及 replica
Elasticsearch 中的一些重要概念: cluster, node, index, document, shards 及 replica
19847 0
【Elastic Engineering】Elasticsearch 中的一些重要概念: cluster, node, index, document, shards 及 replica