Elasticsearch内置分析器全面解析

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: Elasticsearch内置分析器全面解析

Elasticsearch提供了丰富的内置分析器,以满足不同场景下的文本分析需求。本文将详细介绍几个核心的内置分析器,包括它们的工作原理和使用示例,帮助开发者更好地理解如何在索引和搜索过程中应用这些分析器。

1. Standard Analyzer(标准分析器)

标准分析器是最常用的分析器之一,它基于Unicode文本分割算法切分单词,同时删除大部分标点符号,并将所有单词转为小写形式,以实现标准化处理。此外,标准分析器还支持过滤停用词列表中的词汇,进一步优化索引内容。

示例

POST _analyze
{
  "analyzer": "standard",
  "text": "The 2019头条新闻 has spread out。"
}
{
  "tokens" : [
    {
      "token" : "the",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "<ALPHANUM>",
      "position" : 0
    },
    {
      "token" : "2019",
      "start_offset" : 4,
      "end_offset" : 8,
      "type" : "<NUM>",
      "position" : 1
    },
    {
      "token" : "头",
      "start_offset" : 8,
      "end_offset" : 9,
      "type" : "<IDEOGRAPHIC>",
      "position" : 2
    },
    {
      "token" : "条",
      "start_offset" : 9,
      "end_offset" : 10,
      "type" : "<IDEOGRAPHIC>",
      "position" : 3
    },
    {
      "token" : "新",
      "start_offset" : 10,
      "end_offset" : 11,
      "type" : "<IDEOGRAPHIC>",
      "position" : 4
    },
    {
      "token" : "闻",
      "start_offset" : 11,
      "end_offset" : 12,
      "type" : "<IDEOGRAPHIC>",
      "position" : 5
    },
    {
      "token" : "has",
      "start_offset" : 13,
      "end_offset" : 16,
      "type" : "<ALPHANUM>",
      "position" : 6
    },
    {
      "token" : "spread",
      "start_offset" : 17,
      "end_offset" : 23,
      "type" : "<ALPHANUM>",
      "position" : 7
    },
    {
      "token" : "out",
      "start_offset" : 24,
      "end_offset" : 27,
      "type" : "<ALPHANUM>",
      "position" : 8
    }
  ]
}

2. Simple Analyzer(简单分析器)

简单分析器在非字母字符处进行切分,并将所有字符转为小写。与标准分析器相比,它更加“简单粗暴”,不保留任何非字母字符,适用于那些需要快速分割且不关心标点符号和数字的场景。

示例

POST _analyze
{
  "analyzer": "simple",
  "text": "The 2019头条新闻 hasn’t spread out。"
}
{
  "tokens" : [
    {
      "token" : "the",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "头条新闻",
      "start_offset" : 8,
      "end_offset" : 12,
      "type" : "word",
      "position" : 1
    },
    {
      "token" : "hasn",
      "start_offset" : 13,
      "end_offset" : 17,
      "type" : "word",
      "position" : 2
    },
    {
      "token" : "t",
      "start_offset" : 18,
      "end_offset" : 19,
      "type" : "word",
      "position" : 3
    },
    {
      "token" : "spread",
      "start_offset" : 20,
      "end_offset" : 26,
      "type" : "word",
      "position" : 4
    },
    {
      "token" : "out",
      "start_offset" : 27,
      "end_offset" : 30,
      "type" : "word",
      "position" : 5
    }
  ]
}

3. Whitespace Analyzer(空格分析器)

空格分析器以空格作为分隔符来切分文本,保留文本中所有的字符,包括数字、标点符号等,适合于需要精确控制分词边界的场景。

示例

POST _analyze
{
  "analyzer": "whitespace",
  "text": "The 2019头条新闻hasn’t spread out。"
}
{
  "tokens" : [
    {
      "token" : "The",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "2019头条新闻hasn’t",
      "start_offset" : 4,
      "end_offset" : 18,
      "type" : "word",
      "position" : 1
    },
    {
      "token" : "spread",
      "start_offset" : 19,
      "end_offset" : 25,
      "type" : "word",
      "position" : 2
    },
    {
      "token" : "out。",
      "start_offset" : 26,
      "end_offset" : 30,
      "type" : "word",
      "position" : 3
    }
  ]
}

4. Stop Analyzer(停用词分析器)

停用词分析器在简单分析器的基础上增加了停用词过滤功能,移除了英语中最常见的非实质意义词汇(如“a”,“the”,“is”等),适用于希望进一步减少噪声、提高索引效率的情况。

示例

POST _analyze
{
  "analyzer": "stop",
  "text": "The quick brown fox jumps over the lazy dog."
}
{
  "tokens" : [
    {
      "token" : "quick",
      "start_offset" : 4,
      "end_offset" : 9,
      "type" : "word",
      "position" : 1
    },
    {
      "token" : "brown",
      "start_offset" : 10,
      "end_offset" : 15,
      "type" : "word",
      "position" : 2
    },
    {
      "token" : "fox",
      "start_offset" : 16,
      "end_offset" : 19,
      "type" : "word",
      "position" : 3
    },
    {
      "token" : "jumps",
      "start_offset" : 20,
      "end_offset" : 25,
      "type" : "word",
      "position" : 4
    },
    {
      "token" : "over",
      "start_offset" : 26,
      "end_offset" : 30,
      "type" : "word",
      "position" : 5
    },
    {
      "token" : "lazy",
      "start_offset" : 35,
      "end_offset" : 39,
      "type" : "word",
      "position" : 7
    },
    {
      "token" : "dog",
      "start_offset" : 40,
      "end_offset" : 43,
      "type" : "word",
      "position" : 8
    }
  ]
}

5. Keyword Analyzer(关键字分析器)

关键字分析器不对文本进行任何切分,而是将整个文本作为一个不可分割的整体(token)处理。适用于索引那些不应被拆分的字符串,如电子邮件地址、主机名等。

示例

POST _analyze
{
  "analyzer": "keyword",
  "text": "ContactUs@example.com"
}
{
  "tokens" : [
    {
      "token" : "ContactUs@example.com",
      "start_offset" : 0,
      "end_offset" : 21,
      "type" : "word",
      "position" : 0
    }
  ]
}

6. Pattern Analyzer(模式分析器)

模式分析器允许使用正则表达式来定义文本的分割规则,同时支持小写转换和停用词过滤,为文本分析提供了高度的定制性。

示例

POST _analyze
{
  "analyzer": "pattern",
  "text": "2023-04-01 Release Notes",
  "pattern": "\\d{4}-\\d{2}-\\d{2} | [A-Za-z]+"
}

7. Language Analyzers(语言分析器)

Elasticsearch内置了一系列针对特定语言的分析器,如english、chinese等,它们能够根据相应语言的特点进行文本分析,包括正确处理词形变化、停用词等,适合多语言环境下的索引构建。

示例(中文)

POST _analyze
{
  "analyzer": "ik_max_word",
  "text": " ElasticSearch是一个开源的分布式全文搜索引擎。"
}
{
  "tokens" : [
    {
      "token" : "elasticsearch",
      "start_offset" : 1,
      "end_offset" : 14,
      "type" : "ENGLISH",
      "position" : 0
    },
    {
      "token" : "是",
      "start_offset" : 14,
      "end_offset" : 15,
      "type" : "CN_CHAR",
      "position" : 1
    },
    {
      "token" : "一个",
      "start_offset" : 15,
      "end_offset" : 17,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "一",
      "start_offset" : 15,
      "end_offset" : 16,
      "type" : "TYPE_CNUM",
      "position" : 3
    },
    {
      "token" : "个",
      "start_offset" : 16,
      "end_offset" : 17,
      "type" : "COUNT",
      "position" : 4
    },
    {
      "token" : "开源",
      "start_offset" : 17,
      "end_offset" : 19,
      "type" : "CN_WORD",
      "position" : 5
    },
    {
      "token" : "的",
      "start_offset" : 19,
      "end_offset" : 20,
      "type" : "CN_CHAR",
      "position" : 6
    },
    {
      "token" : "分布式",
      "start_offset" : 20,
      "end_offset" : 23,
      "type" : "CN_WORD",
      "position" : 7
    },
    {
      "token" : "分布",
      "start_offset" : 20,
      "end_offset" : 22,
      "type" : "CN_WORD",
      "position" : 8
    },
    {
      "token" : "式",
      "start_offset" : 22,
      "end_offset" : 23,
      "type" : "CN_CHAR",
      "position" : 9
    },
    {
      "token" : "全文",
      "start_offset" : 23,
      "end_offset" : 25,
      "type" : "CN_WORD",
      "position" : 10
    },
    {
      "token" : "搜索引擎",
      "start_offset" : 25,
      "end_offset" : 29,
      "type" : "CN_WORD",
      "position" : 11
    },
    {
      "token" : "搜索",
      "start_offset" : 25,
      "end_offset" : 27,
      "type" : "CN_WORD",
      "position" : 12
    },
    {
      "token" : "索引",
      "start_offset" : 26,
      "end_offset" : 28,
      "type" : "CN_WORD",
      "position" : 13
    },
    {
      "token" : "引擎",
      "start_offset" : 27,
      "end_offset" : 29,
      "type" : "CN_WORD",
      "position" : 14
    }
  ]
}

8. Fingerprint Analyzer(指纹分析器)

指纹分析器通过一种特殊算法生成文本的“指纹”,它会将文本转为小写,删除扩展词和重复词,并将每个分词按字典序排序输出,常用于生成唯一标识或简化文本比较。

示例

POST _analyze
{
  "analyzer": "fingerprint",
  "text": "This is a test sentence with duplicate words."
}
{
  "tokens" : [
    {
      "token" : "a duplicate is sentence test this with words",
      "start_offset" : 0,
      "end_offset" : 45,
      "type" : "fingerprint",
      "position" : 0
    }
  ]
}

通过合理选择和配置这些内置分析器,开发者可以高效地处理各种文本数据,优化搜索性能和结果的相关性。

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
2月前
|
存储 JSON 数据库
Elasticsearch 分布式架构解析
【9月更文第2天】Elasticsearch 是一个分布式的搜索和分析引擎,以其高可扩展性和实时性著称。它基于 Lucene 开发,但提供了更高级别的抽象,使得开发者能够轻松地构建复杂的搜索应用。本文将深入探讨 Elasticsearch 的分布式存储和检索机制,解释其背后的原理及其优势。
190 5
|
1月前
|
存储 缓存 监控
深入解析:Elasticsearch集群性能调优策略与最佳实践
【10月更文挑战第8天】Elasticsearch 是一个分布式的、基于 RESTful 风格的搜索和数据分析引擎,它能够快速地存储、搜索和分析大量数据。随着企业对实时数据处理需求的增长,Elasticsearch 被广泛应用于日志分析、全文搜索、安全信息和事件管理(SIEM)等领域。然而,为了确保 Elasticsearch 集群能够高效运行并满足业务需求,需要进行一系列的性能调优工作。
81 3
|
1月前
|
存储 安全 网络协议
Elasticsearch 配置文件解析
【10月更文挑战第3天】Elasticsearch 配置文件解析
76 3
|
1月前
|
JSON 关系型数据库 API
ElasticSearch 的概念解析与使用方式(二)
ElasticSearch 的概念解析与使用方式(二)
25 1
|
1月前
|
存储 搜索推荐 Java
ElasticSearch 的概念解析与使用方式(一)
ElasticSearch 的概念解析与使用方式(一)
58 1
|
2月前
|
存储 缓存 自然语言处理
深度解析ElasticSearch:构建高效搜索与分析的基石
【9月更文挑战第8天】在数据爆炸的时代,如何快速、准确地从海量数据中检索出有价值的信息成为了企业面临的重要挑战。ElasticSearch,作为一款基于Lucene的开源分布式搜索和分析引擎,凭借其强大的实时搜索、分析和扩展能力,成为了众多企业的首选。本文将深入解析ElasticSearch的核心原理、架构设计及优化实践,帮助读者全面理解这一强大的工具。
176 7
|
1月前
|
消息中间件 监控 关系型数据库
MySQL数据实时同步到Elasticsearch:技术深度解析与实践分享
在当今的数据驱动时代,实时数据同步成为许多应用系统的核心需求之一。MySQL作为关系型数据库的代表,以其强大的事务处理能力和数据完整性保障,广泛应用于各种业务场景中。然而,随着数据量的增长和查询复杂度的提升,单一依赖MySQL进行高效的数据检索和分析变得日益困难。这时,Elasticsearch(简称ES)以其卓越的搜索性能、灵活的数据模式以及强大的可扩展性,成为处理复杂查询需求的理想选择。本文将深入探讨MySQL数据实时同步到Elasticsearch的技术实现与最佳实践。
85 0
|
8天前
|
存储 安全 数据管理
如何在 Rocky Linux 8 上安装和配置 Elasticsearch
本文详细介绍了在 Rocky Linux 8 上安装和配置 Elasticsearch 的步骤,包括添加仓库、安装 Elasticsearch、配置文件修改、设置内存和文件描述符、启动和验证 Elasticsearch,以及常见问题的解决方法。通过这些步骤,你可以快速搭建起这个强大的分布式搜索和分析引擎。
21 5
|
1月前
|
存储 JSON Java
elasticsearch学习一:了解 ES,版本之间的对应。安装elasticsearch,kibana,head插件、elasticsearch-ik分词器。
这篇文章是关于Elasticsearch的学习指南,包括了解Elasticsearch、版本对应、安装运行Elasticsearch和Kibana、安装head插件和elasticsearch-ik分词器的步骤。
116 0
elasticsearch学习一:了解 ES,版本之间的对应。安装elasticsearch,kibana,head插件、elasticsearch-ik分词器。
|
2月前
|
NoSQL 关系型数据库 Redis
mall在linux环境下的部署(基于Docker容器),Docker安装mysql、redis、nginx、rabbitmq、elasticsearch、logstash、kibana、mongo
mall在linux环境下的部署(基于Docker容器),docker安装mysql、redis、nginx、rabbitmq、elasticsearch、logstash、kibana、mongodb、minio详细教程,拉取镜像、运行容器
mall在linux环境下的部署(基于Docker容器),Docker安装mysql、redis、nginx、rabbitmq、elasticsearch、logstash、kibana、mongo

推荐镜像

更多