【ElasticSearch】分词器(ElasticSearchIK分词器)

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 【ElasticSearch】分词器(ElasticSearchIK分词器)

1. 分词器介绍


•IKAnalyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包


•是一个基于Maven构建的项目


•具有60万字/秒的高速处理能力


•支持用户词典扩展定义


2. ik 分词器安装


IK 分词器安装


3. 分词器的使用


IK分词器有两种分词模式:ik_max_word 和 ik_smart 模式。


1、ik_max_word


会将文本做最细粒度的拆分,比如会将“秦始皇陵兵马俑”拆分为很多词。


#方式一ik_max_word
GET /_analyze
{
  "analyzer": "ik_max_word",
  "text": "秦始皇陵兵马俑"
}


ik_max_word分词器执行如下:


{
  "tokens" : [
    {
      "token" : "秦始皇陵",
      "start_offset" : 0,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "秦始皇",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "始皇",
      "start_offset" : 1,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "皇陵",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 3
    },
    {
      "token" : "兵马俑",
      "start_offset" : 4,
      "end_offset" : 7,
      "type" : "CN_WORD",
      "position" : 4
    },
    {
      "token" : "兵马",
      "start_offset" : 4,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 5
    },
    {
      "token" : "俑",
      "start_offset" : 6,
      "end_offset" : 7,
      "type" : "CN_CHAR",
      "position" : 6
    }
  ]
}



2、**ik_smart **会做最粗粒度的拆分,比如会将“秦始皇陵兵马俑”拆分为只有两个词。


#方式二ik_smart
GET /_analyze
{
  "analyzer": "ik_smart",
  "text": "秦始皇陵兵马俑"
}


ik_smart分词器执行如下:


{
  "tokens" : [
    {
      "token" : "秦始皇陵",
      "start_offset" : 0,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "兵马俑",
      "start_offset" : 4,
      "end_offset" : 7,
      "type" : "CN_WORD",
      "position" : 1
    }
  ]
}



我们可以根据业务不同 选择具体的分词方式。

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
5月前
|
存储 人工智能 自然语言处理
ElasticSearch实战指南必知必会:安装分词器、高级查询、打分机制
ElasticSearch实战指南必知必会:安装分词器、高级查询、打分机制
ElasticSearch实战指南必知必会:安装分词器、高级查询、打分机制
|
8月前
|
自然语言处理 算法 索引
elasticsearch分词器详解
elasticsearch分词器详解
154 0
|
2月前
|
自然语言处理
Elasticsearch+IK+pinyin自定义分词器
Elasticsearch+IK+pinyin自定义分词器
29 0
|
8月前
|
存储 自然语言处理 索引
【Elasticsearch】学好Elasticsearch系列-分词器 1
【Elasticsearch】学好Elasticsearch系列-分词器
76 0
|
3月前
|
自然语言处理 数据可视化 算法
史上最详细Docker安装Elasticsearch、ik分词器、可视化工具,每一步都带有步骤图!!!
史上最详细Docker安装Elasticsearch、ik分词器、可视化工具,每一步都带有步骤图!!!
367 0
史上最详细Docker安装Elasticsearch、ik分词器、可视化工具,每一步都带有步骤图!!!
|
4月前
|
自然语言处理 搜索推荐 算法
数据库-Elasticsearch进阶学习笔记(分片、映射、分词器、即时搜索、全文搜索等)
数据库-Elasticsearch进阶学习笔记(分片、映射、分词器、即时搜索、全文搜索等)
143 0
|
7月前
|
自然语言处理 Java Windows
Windows使用elasticsearch+Kibana+ik分词器
Windows使用elasticsearch+Kibana+ik分词器
72 0
|
8月前
|
自然语言处理 关系型数据库 MySQL
|
8月前
|
自然语言处理 关系型数据库 数据库连接
【Elasticsearch】学好Elasticsearch系列-分词器 2
【Elasticsearch】学好Elasticsearch系列-分词器
150 0
【Elasticsearch】学好Elasticsearch系列-分词器  2
|
8月前
|
存储 JSON 自然语言处理

热门文章

最新文章