干货 | Elasticsearch基础但非常有用的功能之一:别名

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 本文是系列文章第一篇。介绍Elasticsearch的一些非常基础但实战开发确非常有用的技术点。了解这些技术点会帮助你设计更易于维护的数据索引,预先知道PB级大数据索引实战中的坑,提升工作效率。本文从别名分类、索引别名实践、索引别名的好处、索引别名常见问题及坑解读、字段别名实践一把五个方面进行详细解读。

image.png

链接

1、别名分类

别名在Elasticsearch中有两种分类。


1.1 索引别名。

官方释义:

索引别名可以指向一个或多个索引,并且可以在任何需要索引名称的API中使用。

别名为我们提供了极大的灵活性。它们允许我们执行以下操作:

1)在正在运行的集群上的一个索引和另一个索引之间透明切换;

2)对多个索引进行分组组合(例如,last_three_months的索引别名:是过去3个月索引logstash_201903, logstash_201904, logstash_201905的组合);

3)在索引中的文档子集上创建“视图”(结合业务场景,会提升检索效率)。


通俗解释:

索引别名类似:windows的快捷方式,linux的软链接,mysql的视图。


前提:Elasitcsearch创建索引后,索引名不允许改。很多业务场景下单一索引可能无法满足要求。

场景1:PB级别增量数据,借助rollover api实现,由基于日期的n个索引组成,显然,对外提供服务使用别名会很便捷。

场景2:试想,线上提供服务的某个索引出了问题,比如:某字段分词定义不准确,如何保证对外提供服务不停止(不更改业务代码)的前提下更换索引,显然,别名更合适。

注意:实际业务场景使用别名会很方便、灵活、快捷、业务松耦合!!


1.2 字段别名

在Elasticsearch Mapping定义的6.4+版本才有的字段类型。

通俗解释:

试想一下有一种业务场景。比如在实际的业务开发中:需要对Facebook、twitter行采集,采集入库的是两个业务团队。他们对content,分别使用了两个字段。其中一个是,content。另外一个是cont。

这时候存储到elasticsearch会有两个字段。这样如果我们在检索、写业务代码的时候,是不是要写两个不同的字段来处理呢?

如果有可能写成一个字段,代码方面就很避开业务耦合,很方便了。

我认为这是字段别名的由来。


2、索引别名实践

2.1 假设没有别名,如何处理多索引检索?

方式一:多索引逗号分隔检索。

POST visitor_logs_2017,visitor_logs_2018/_search

1

方式二:通配符索引检索。

POST visitor_logs_*/_search

1

2.2 有了别名后,操作变得简单

实战中,我们不需要知道操作的实际索引名称,我们可以透明地更改别名引用的索引而不会影响使用别名的用户。


步骤1:别名关联已有索引。

POST /_aliases?pretty

{

 "actions": [

   {

     "add": {

       "index": "visitor_logs_2017",

       "alias": "visitor_logs"

     }

   },

   {

     "add": {

       "index": "visitor_logs_2018",

       "alias": "visitor_logs"

     }

   }

 ]

}

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

步骤2:使用别名检索

GET /visitor_logs/_search

1

3、索引别名的好处

3.1 大数据量的管理

场景: 实战中,可能需要基于时间的数据保留策略(利用rollover机制实现),并从系统中删除旧数据。

使用索引别名:


好处1:来简化从Elasticsearch中删除数据的过程。

好处2:在没有任何停机时间的情况下从Elasticsearch中删除最旧的数据,不会出现任何查询中断,也不会进行任何客户端更改。

基于时间索引的实现机制如下:

image.png

推荐阅读:https://gitbook.cn/books/5c52c6923417565017a61ce0/index.html

试想一下:如果不是基于时间的索引,而使用大索引,删除历史数据会发生什么?

答案:


1、删除索引数据只能使用:delete_by_query,相比删除索引,delete_by_query删除数据只是逻辑删除;

2、真正的删除实际是段合并后的物理删除分段,也就是delete_by_query后,有一段时间磁盘空间不降反升。此时的检索效率会非常低。

3.2 用户无感知的重建索引

实战中,索引的设计可能不是一步到位。

随着业务的扩展,可能会在开发的中后期,调整索引Mapping结构,

比如:


1)ik_smart改成ik_max_word分词以高效分词,

2)long类型改成keyword以提升检索效率,

3)修改索引分片数以便于机器横向扩展,

4)索引分成更小粒度的索引等以提升性能。

通常的做法,都需要借助:reindex操作完成索引的迁移。

如果要确保线上环境的可靠运行且用户无感知(即无需告知用户,不影响用户的业务),使用别名指向更改前和更改后的索引是绝佳方案。


实战举例:


POST /_aliases?pretty

{

 "actions": [

   {

     "remove": {

       "index": "visitor_logs_2018",

       "alias": "visitor_logs"

     }

   },

   {

     "add": {

       "index": "visitor_logs_2018_01",

       "alias": "visitor_logs"

     }

   }

 ]

}

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

试想一下,如果没有索引别名呢?

答案:


1、无法保证查询的连续性;

2、无法保证线上业务查询的可靠性(需要告知用户,业务中断一段时间)。

4、索引别名常见问题及坑解读

问题1:ES批量插入可以使用别名插入吗?

会报错:no write index is defined for alias [xxx]. ...

注意:索引别名不是在任何地方都通用。写入或更新数据的时候需要指明物理索引,不要向别名写入数据。


问题2:ES怎么获取所有别名信息 alias

或者问题:如何通过索引别名查找实际索引名称?


GET _cat/aliases

1

返回信息:


visitor_logs visitor_logs_2017 - - -

.kibana      .kibana_1         - - -

visitor_logs visitor_logs_2018 - -

1

2

3

问题3:使用别名和基于索引效率一样吗?

是一致的。前提:索引和别名指向相同的数据,相同的检索条件。

原理:索引别名只是物理索引的软链接名称而已。


问题4:如何使用别名提升检索效率?

方式一:基于时间创建索引,指定多索引别名。

比如分为:近1年索引别名,近3个月索引别名,近1个月索引别名,近1周索引别名,近3天索引别名。

检索的时候,先敲定时间范围,然后在指定范围的别名下检索。

核心原理:物理上基于时间做了分隔,再加上冷热数据分离机制,会极大缩小了检索样本。


方式二:使用filter 别名或者 路由别名机制,提升效率。

filter Alias上代码,实际业务中极易被忽视,但会极大提升效率。


POST /_aliases

{

   "actions" : [

       {

           "add" : {

                "index" : "test1",

                "alias" : "alias2",

                "filter" : { "term" : { "user" : "kimchy" } }

           }

       }

   ]

}

1

2

3

4

5

6

7

8

9

10

11

12

路由机制参考官方文档即可。


5、字段别名实践一把

星友的问题:“Alias datatype,这个数据类型,在现实工作中的使用场景是什么?看官方文档,没有很好理解?”


字段别名原理第一部分已详细解释,不再赘述。

这里实践一把,加深理解。


PUT trips

{

 "mappings": {

   "_doc": {

     "properties": {

       "distance": {

         "type": "long"

       },

       "route_length_miles": {

         "type": "alias",

         "path": "distance"

       },

       "transit_mode": {

         "type": "keyword"

       }

     }

   }

 }

}

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

注意:

当用户使用检索时,实际可以使用route_length_mile字段替代distance做检索,以达到distance一样的效果。


6、小结

实战中,一般在开发中后期才发现索引别名的妙处。正如文中分析:1、高效索引管理;2、用户无感知维护数据修改更新。

建议:相同索引别名的物理索引有一致的Mapping和数据结构,以提升检索效率。

注意:发挥索引别名在检索方面的优势,在写入和更新还得使用物理索引。

你的实际Elasticsearch业务场景,有哪些非常基础但实战开发非常有用的技术点呢?

欢迎留言留下你的思考,让我们一起精进!


参考:https://cambium.consulting/articles/2018/2/22/our-favorite-elasticsearch-features-part-2-index-aliases

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
8月前
|
存储 搜索推荐 Java
|
存储 人工智能 自然语言处理
Elasticsearch Relevance Engine---为AI变革提供高级搜索能力[ES向量搜索、常用配置参数、聚合功能等详解]
Elasticsearch Relevance Engine---为AI变革提供高级搜索能力[ES向量搜索、常用配置参数、聚合功能等详解]
Elasticsearch Relevance Engine---为AI变革提供高级搜索能力[ES向量搜索、常用配置参数、聚合功能等详解]
|
6月前
|
存储 自然语言处理 算法
面试题ES问题之Solr和Elasticsearch功能实现如何解决
面试题ES问题之Solr和Elasticsearch功能实现如何解决
75 2
|
2月前
|
JSON Java API
springboot集成ElasticSearch使用completion实现补全功能
springboot集成ElasticSearch使用completion实现补全功能
48 1
|
3月前
|
机器学习/深度学习 存储 运维
探索未来:结合机器学习功能拓展Elasticsearch应用场景
【10月更文挑战第8天】随着数据量的爆炸性增长,高效的数据存储、检索和分析变得越来越重要。Elasticsearch 作为一个分布式的搜索和分析引擎,以其强大的全文搜索能力、实时分析能力和可扩展性而闻名。近年来,随着机器学习技术的发展,将机器学习集成到 Elasticsearch 中成为了一种新的趋势,这不仅增强了 Elasticsearch 的数据分析能力,还开拓了一系列新的应用场景。
85 7
|
8月前
|
存储 监控 API
Elasticsearch 8.X Rollup 功能详解及避坑指南
Elasticsearch 8.X Rollup 功能详解及避坑指南
79 0
|
4月前
|
JSON 自然语言处理 算法
ElasticSearch基础2——DSL查询文档,黑马旅游项目查询功能
DSL查询文档、RestClient查询文档、全文检索查询、精准查询、复合查询、地理坐标查询、分页、排序、高亮、黑马旅游案例
|
6月前
|
数据库
面试题ES问题之Elasticsearch的排序分页和高亮功能如何解决
面试题ES问题之Elasticsearch的排序分页和高亮功能如何解决
48 0
|
自然语言处理 前端开发 Java
|
自然语言处理 前端开发 Java
十.全文检索ElasticSearch经典入门-自动补全功能
十.全文检索ElasticSearch经典入门-自动补全功能