备案控制台

开发者社区开发与运维文章正文

【ES系列七】——ik自定义分词词库

2023-07-28 539

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在利用ik分词的过程中，当ik的分词规则不满足我们的需求了，这个时候就可以利用ik的自定义词库进行筛选，举个例子：当我要将“我是中国人，我想测试一下”这句话通过分词，将“我想测试一下”分为一个词的时候，就需要利用ik的自定义词库进行灌入指定的词。

一、业务场景

在利用ik分词的过程中，当ik的分词规则不满足我们的需求了，这个时候就可以利用ik的自定义词库进行筛选，举个例子：当我要将“我是中国人，我想测试一下”这句话通过分词，将“我想测试一下”分为一个词的时候，就需要利用ik的自定义词库进行灌入指定的词。

二、新建词库

1.到elasticsearch/plugins中寻找ik插件所在的目录

2.在ik中的config文件中添加词库

vimmydic.dic

输入你定义的词，例如：我想测试一下（注：一行输入一个词）

:wq!保存命令

3.检查新建词库内容(注意内容中的编码格式)

catmydic.dic

三、修改ik配置

修改config中的IKAnalyzer.cfg.xml文件(注:词库的位置根据该配置文件的位置来决定所写的路径，一般放在平级目录或者下一级目录下)

vimIKAnalyzer.cfg.xml

:wq!保存命令

四、重启es

1.修改为子账户(具体看：ES安装步骤七)：

例如：su es

2.查看es进程号

ps aux|grep elastic

3.杀死es进程

Kill -9 29223

4.启动es

sh elasticsearch -d

五、测试

浏览器测试(其它测试请查看ik安装步骤四)：

http://ip:9200/knowledge/_analyze?analyzer=ik_smart&pretty=true&textt=”我想测试一下”

注：knowledge为建立的索引名称，ik_smart为粗粒度分词(分词粒度具体查看ik安装步骤五)

文章标签：

Shell

自然语言处理

索引

创业之路＆下一个五年

目录

相关文章

赵广陆

|

自然语言处理 API 索引

ElasticSearch自定义pinyin和ik分词库

ElasticSearch自定义pinyin和ik分词库

赵广陆

320 0 0

嚯嚯嚯www

|

Linux 数据库

【Openstack】排错：Glance服务安装后HTTP 500解决

在搭建Openstack平台时，装完各个组件后发现了glance无法正常使用

嚯嚯嚯www

3029 0 0

【Openstack】排错：Glance服务安装后HTTP 500解决

热爱技术的小郑

|

自然语言处理应用服务中间件 nginx

一文教会你分词器elasticsearch-analysis-ik 的安装使用【自定义分词库】

这篇文章是关于如何在Elasticsearch中安装和使用ik分词器的详细教程，包括版本匹配、安装步骤、分词测试、自定义词库配置以及创建使用ik分词器的索引的方法。

热爱技术的小郑

7995 1 2

一文教会你分词器elasticsearch-analysis-ik 的安装使用【自定义分词库】

灵杰开发者

|

11月前

|

存储人工智能 API

（Elasticsearch）使用阿里云 infererence API 及 semantic text 进行向量搜索

本文我们展示了如何在Elasticsearch上使用阿里云 infererence API 及 semantic text 进行向量搜索。

灵杰开发者

211 10 10

听风de歌

|

SQL 关系型数据库 MySQL

go语言数据库中mysql驱动安装

【11月更文挑战第2天】

听风de歌

367 4 4

程序员小海绵

|

设计模式移动开发 Java

【阿里规约】阿里开发手册解读——代码格式篇

本文所有代码格式规范遵循《阿里规约》，从编码、换行符、空格规则、括号规则、字符数等方面展开，详细阐述方法参数、强制转换、运算符、缩进等元素的编写规范。

程序员小海绵

6367 4 4

【阿里规约】阿里开发手册解读——代码格式篇

jcLee95

|

Ubuntu Linux Docker

弃用Docker Desktop：在WSL2中玩转Docker之Docker Engine 部署与WSL入门

弃用Docker Desktop：在WSL2中玩转Docker之Docker Engine 部署与WSL入门

jcLee95

20590 4 8

热爱技术的小郑

|

数据可视化 Docker 容器

一文教会你如何通过Docker安装elasticsearch和kibana 【详细过程+图解】

这篇文章提供了通过Docker安装Elasticsearch和Kibana的详细过程和图解，包括下载镜像、创建和启动容器、处理可能遇到的启动失败情况（如权限不足和配置文件错误）、测试Elasticsearch和Kibana的连接，以及解决空间不足的问题。文章还特别指出了配置文件中空格的重要性以及环境变量中字母大小写的问题。

热爱技术的小郑

3282 0 0

一文教会你如何通过Docker安装elasticsearch和kibana 【详细过程+图解】

鹤冲天Pro

|

自然语言处理算法应用服务中间件

Elasticsearch安装IK分词器、配置自定义分词词库

Elasticsearch安装IK分词器、配置自定义分词词库

鹤冲天Pro

854 0 0

SarPro

|

SQL Oracle 关系型数据库

【操作宝典】Navicat+MySQL：极简教程，轻松玩转数据库！

【操作宝典】Navicat+MySQL：极简教程，轻松玩转数据库！

SarPro

721 1 1

热门文章

最新文章

2022年l6月云大使返佣规则

MySQL多线程并发调优

小尺度信道建模 | 带你读《大规模天线波束赋形技术原理与设计》之二十六

阿里云率先达成国家绿色数据中心标准，平均PUE低于1.3

阿里云ACP认证考试过关心得经验及考试费用详解

阿里云ECS服务器CentOS7上安装Apache服务

美国国家标准技术局发布应用容器安全指南

只需三步轻松搞定 Foxmail 发送邮件“错误信息 ssl连接错误 error code 5”

两个INSERT发生死锁原因剖析

MySQL · 引擎特性 · 像NOSQL那样使用MySQL

高级检索增强生成系统：LongRAG、Self-RAG 和 GraphRAG 的实现与选择

《跨端互联进阶实践指南：从链路适配到长期效能的维护方案》

《联机游戏多端通联进阶指南：逻辑协同与体验优化的实战手册》

阿里云ECS云服务器创建流程：付费类型、地域、网络及可用区、实例镜像及存储选择教程

阿里云u2a云服务器ECS通用算力型实例，CPU采用AMD EPYC处理器

阿里云u2i云服务器ECS通用算力型实例，CPU采用Intel Xeon Platinum可扩展处理器

LBA-ECO ND-11 树木作物下土壤水分压力和流量测量

压缩教程学习，文件压缩包解压推荐，BANDIZIP、win_RAR、7-Zip工作使用教程

[数据集]作弊行为检测数据集（1100张图片已划分）[目标检测]

公链设计开发技术分析

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

拔俗AI临床大数据科研分析平台：让医学研究更智能、更高效