elasticsearch分词器详解

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: elasticsearch分词器详解

 分词器

简介

ES文档的数据拆分成一个个有完整含义的关键词,并将关键词与文档对应,这样就可以通过关键词查询文档

要想正确的分词,需要选择合适的分词器

默认分词器

简介

根据空格和标点符号对英文进行分词,会进行单词的大小写转换

默认分词器是英文分词器,对中文的分词是一字一词

基本使用

GET /_analyze
{
  "text": "月木天上",
  "analyzer": "standard"
}

image.gif

         

IK分词器

简介

IK分词器提供了两种分词算法:

ik_smart:最少切分

ik_max_word:最细粒度划分

IK分词器词典

IK分词器根据词典进行分词,词典文件在IK分词器的config目录中:

main.dic:IK中内置的词典。记录了IK统计的所有中文单词

IKAnalyzer.cfg.xml:用于配置自定义词库

基本使用

GET /_analyze
{
  "text":"月木天上",
  "analyzer":"ik_smart"
}

image.gif

 

GET /_analyze
{
  "text":"月木天上",
  "analyzer":"ik_max_word"
}

image.gif

拼音分词器

简介

拼音分词器可以将中文分成对应的全拼,全拼首字母等

基本使用

GET /_analyze
{
  "text":"月木天上",
  "analyzer":"pinyin"
}

image.gif

自定义分词器

简介

真实开发中我们往往需要对一段内容既进行文字分词,又进行拼音分词,此时我们需要自定义ik+pinyin分词器

在创建索引时自定义分词器

PUT /索引名
{
  "settings" : {
    "analysis" : {
      "analyzer" : {
        "ik_pinyin" : { //自定义分词器名
          "tokenizer":"ik_max_word", // 基本分词器
          "filter":"pinyin_filter" // 配置分词器过滤
        }
      },
      "filter" : { // 分词器过滤时配置另一个分词器,相当于同时使用两个分词器
        "pinyin_filter" : {
          "type" : "pinyin", // 另一个分词器
          // 拼音分词器的配置
          "keep_separate_first_letter" : false, // 是否分词每个字的首字母
          "keep_full_pinyin" : true, // 是否分词全拼
          "keep_original" : true, // 是否保留原始输入
          "remove_duplicated_term" : true // 是否删除重复项
        }
      }
    }
  },
  "mappings":{
    "properties":{
      "域名1":{
        "type":域的类型,
        "store":是否单独存储,
        "index":是否创建索引,
        "analyzer":分词器
      },
      "域名2":{
        ...
      }
    }
  }
}

image.gif


相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
6月前
|
存储 人工智能 自然语言处理
ElasticSearch实战指南必知必会:安装分词器、高级查询、打分机制
ElasticSearch实战指南必知必会:安装分词器、高级查询、打分机制
ElasticSearch实战指南必知必会:安装分词器、高级查询、打分机制
|
15天前
|
自然语言处理 Java Maven
【ElasticSearch】分词器(ElasticSearchIK分词器)
【ElasticSearch】分词器(ElasticSearchIK分词器)
21 1
|
29天前
|
Linux Docker 容器
使用Docker来安装ElasticSearch,并且配置ik分词器
使用Docker来安装ElasticSearch,并且配置ik分词器
34 0
|
1月前
|
存储 自然语言处理 算法
elasticsearch集群搭建,以及kibana和ik分词器的安装(7.3.2)
elasticsearch集群搭建,以及kibana和ik分词器的安装(7.3.2)
|
3月前
|
自然语言处理
Elasticsearch+IK+pinyin自定义分词器
Elasticsearch+IK+pinyin自定义分词器
32 0
|
9月前
|
存储 自然语言处理 索引
【Elasticsearch】学好Elasticsearch系列-分词器 1
【Elasticsearch】学好Elasticsearch系列-分词器
77 0
|
4月前
|
自然语言处理 数据可视化 算法
史上最详细Docker安装Elasticsearch、ik分词器、可视化工具,每一步都带有步骤图!!!
史上最详细Docker安装Elasticsearch、ik分词器、可视化工具,每一步都带有步骤图!!!
414 0
史上最详细Docker安装Elasticsearch、ik分词器、可视化工具,每一步都带有步骤图!!!
|
5月前
|
自然语言处理 搜索推荐 算法
数据库-Elasticsearch进阶学习笔记(分片、映射、分词器、即时搜索、全文搜索等)
数据库-Elasticsearch进阶学习笔记(分片、映射、分词器、即时搜索、全文搜索等)
145 0
|
8月前
|
自然语言处理 Java Windows
Windows使用elasticsearch+Kibana+ik分词器
Windows使用elasticsearch+Kibana+ik分词器
75 0
|
9月前
|
自然语言处理 关系型数据库 MySQL

热门文章

最新文章