Elasticsearch自定义分析器analyzer分词实践-阿里云开发者社区

Elasticsearch自定义分析器analyzer分词实践

2022-09-12 203

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Elasticsearch自定义分析器analyzer分词实践

基础知识回顾

分析器的组成结构：

分析器（analyzer）
  - Character filters （字符过滤器）0个或多个
  - Tokenizer （分词器）有且只有一个
  - Token filters （token过滤器）0个或多个

内置分析器

1、whitespace 空白符分词

POST _analyze
{
  "analyzer": "whitespace", 
  "text": "你好 世界"
}
{
  "tokens": [
    {
      "token": "你好",
      "start_offset": 0,
      "end_offset": 2,
      "type": "word",
      "position": 0
    },
    {
      "token": "世界",
      "start_offset": 3,
      "end_offset": 5,
      "type": "word",
      "position": 1
    }
  ]
}

2、pattern正则表达式分词，默认表达式是\w+(非单词字符)

配置参数

pattern  ：  一个Java正则表达式，默认 \W+
flags  ：  Java正则表达式flags。比如：CASE_INSENSITIVE 、COMMENTS
lowercase  ：  是否将terms全部转成小写。默认true
stopwords  ：  一个预定义的停止词列表，或者包含停止词的一个列表。默认是 _none_
stopwords_path  ：  停止词文件路径

// 拆分中文不正常
POST _analyze
{
  "analyzer": "pattern", 
  "text": "你好世界"
}
{
  "tokens": []
}
// 拆分英文正常
POST _analyze
{
  "analyzer": "pattern", 
  "text": "hello world"
}
{
  "tokens": [
    {
      "token": "hello",
      "start_offset": 0,
      "end_offset": 5,
      "type": "word",
      "position": 0
    },
    {
      "token": "world",
      "start_offset": 6,
      "end_offset": 11,
      "type": "word",
      "position": 1
    }
  ]
}
// 在索引上自定义分析器-竖线分隔
PUT my-blog
{
  "settings": {
    "analysis": {
      "analyzer": {
        "vertical_line": {
          "type": "pattern",
          "pattern": "\\|"
        }
      }
    }
  },
  "mappings": {
    "doc": {
      "properties": {
        "content": {
          "type": "text",
          "analyzer": "vertical_line"
        }
      }
    }
  }
}
// 测试索引分析器 
POST /blog-v4/_analyze
{
  "analyzer": "vertical_line",
  "text": "你好|世界"
}
POST /blog-v4/_analyze
{
  "field": "content",
  "text": "你好|世界"
}
// 两者结果都是
{
  "tokens": [
    {
      "token": "你好",
      "start_offset": 0,
      "end_offset": 2,
      "type": "word",
      "position": 0
    },
    {
      "token": "世界",
      "start_offset": 3,
      "end_offset": 5,
      "type": "word",
      "position": 1
    }
  ]

相关实践学习

使用阿里云Elasticsearch体验信息检索加速

通过创建登录阿里云Elasticsearch集群，使用DataWorks将MySQL数据同步至Elasticsearch，体验多条件检索效果，简单展示数据同步和信息检索加速的过程和操作。

ElasticSearch 入门精讲

ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示，Elasticsearch是最受欢迎的企业搜索引擎，其次是Apache Solr（也是基于Lucene）。 ElasticSearch的实现原理主要分为以下几个步骤：用户将数据提交到Elastic Search 数据库中通过分词控制器去将对应的语句分词，将其权重和分词结果一并存入数据当用户搜索数据时候，再根据权重将结果排名、打分将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索，具有接近实时的搜索，并支持多租户。

Elasticsearch自定义分析器analyzer分词实践

内置分析器

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

Elasticsearch自定义分析器analyzer分词实践

内置分析器

热门文章

最新文章

相关课程

相关电子书

相关实验场景