【ElasticSearch】分词器（ElasticSearchIK分词器）

2023-05-23 236

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

检索分析服务 Elasticsearch 版，2核4GB开发者规格 1个月

简介： 【ElasticSearch】分词器（ElasticSearchIK分词器）

1. 分词器介绍

•IKAnalyzer 是一个开源的，基于java语言开发的轻量级的中文分词工具包

•是一个基于Maven构建的项目

•具有60万字/秒的高速处理能力

•支持用户词典扩展定义

2. ik 分词器安装

IK 分词器安装

3. 分词器的使用

IK分词器有两种分词模式：ik_max_word 和 ik_smart 模式。

1、ik_max_word

会将文本做最细粒度的拆分，比如会将“秦始皇陵兵马俑”拆分为很多词。

#方式一ik_max_word
GET /_analyze
{
  "analyzer": "ik_max_word",
  "text": "秦始皇陵兵马俑"
}

ik_max_word分词器执行如下：

{
  "tokens" : [
    {
      "token" : "秦始皇陵",
      "start_offset" : 0,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "秦始皇",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "始皇",
      "start_offset" : 1,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "皇陵",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 3
    },
    {
      "token" : "兵马俑",
      "start_offset" : 4,
      "end_offset" : 7,
      "type" : "CN_WORD",
      "position" : 4
    },
    {
      "token" : "兵马",
      "start_offset" : 4,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 5
    },
    {
      "token" : "俑",
      "start_offset" : 6,
      "end_offset" : 7,
      "type" : "CN_CHAR",
      "position" : 6
    }
  ]
}

2、**ik_smart **会做最粗粒度的拆分，比如会将“秦始皇陵兵马俑”拆分为只有两个词。

#方式二ik_smart
GET /_analyze
{
  "analyzer": "ik_smart",
  "text": "秦始皇陵兵马俑"
}

ik_smart分词器执行如下：

{
  "tokens" : [
    {
      "token" : "秦始皇陵",
      "start_offset" : 0,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "兵马俑",
      "start_offset" : 4,
      "end_offset" : 7,
      "type" : "CN_WORD",
      "position" : 1
    }
  ]
}

我们可以根据业务不同选择具体的分词方式。

相关实践学习

使用阿里云Elasticsearch体验信息检索加速

通过创建登录阿里云Elasticsearch集群，使用DataWorks将MySQL数据同步至Elasticsearch，体验多条件检索效果，简单展示数据同步和信息检索加速的过程和操作。

ElasticSearch 入门精讲

ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示，Elasticsearch是最受欢迎的企业搜索引擎，其次是Apache Solr（也是基于Lucene）。 ElasticSearch的实现原理主要分为以下几个步骤：用户将数据提交到Elastic Search 数据库中通过分词控制器去将对应的语句分词，将其权重和分词结果一并存入数据当用户搜索数据时候，再根据权重将结果排名、打分将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索，具有接近实时的搜索，并支持多租户。

【ElasticSearch】分词器（ElasticSearchIK分词器）

1. 分词器介绍

2. ik 分词器安装

3. 分词器的使用

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【ElasticSearch】分词器（ElasticSearchIK分词器）

1. 分词器介绍

2. ik 分词器安装

3. 分词器的使用

热门文章

最新文章

相关课程

相关电子书

相关实验场景