【ES系列七】——ik自定义分词词库

简介: 在利用ik分词的过程中,当ik的分词规则不满足我们的需求了,这个时候就可以利用ik的自定义词库进行筛选,举个例子:当我要将“我是中国人,我想测试一下”这句话通过分词,将“我想测试一下”分为一个词的时候,就需要利用ik的自定义词库进行灌入指定的词。

一、业务场景


   在利用ik分词的过程中,当ik的分词规则不满足我们的需求了,这个时候就可以利用ik的自定义词库进行筛选,举个例子:当我要将“我是中国人,我想测试一下”这句话通过分词,将“我想测试一下”分为一个词的时候,就需要利用ik的自定义词库进行灌入指定的词。


二、新建词库


1.到elasticsearch/plugins中寻找ik插件所在的目录


2.在ik中的config文件中添加词库


        vimmydic.dic


        输入你定义的词,例如:我想测试一下  (注:一行输入一个词)


        :wq!保存命令


3.检查新建词库内容(注意内容中的编码格式)


        catmydic.dic


20180130215340351.png


三、修改ik配置


修改config中的IKAnalyzer.cfg.xml文件(注:词库的位置根据该配置文件的位置来决定所写的路径,一般放在平级目录或者下一级目录下)


        vimIKAnalyzer.cfg.xml


        :wq!保存命令


20180130215403733.png


四、重启es


1.修改为子账户(具体看:ES安装步骤七):


例如:su es


2.查看es进程号


ps aux|grep elastic


20180130215422167.png


3.杀死es进程


Kill -9 29223


4.启动es


sh elasticsearch -d


五、测试


浏览器测试(其它测试请查看ik安装步骤四):

http://ip:9200/knowledge/_analyze?analyzer=ik_smart&pretty=true&textt=”我想测试一下”


注:knowledge为建立的索引名称,ik_smart为粗粒度分词(分词粒度具体查看ik安装步骤五)


20180130215438034.png

相关文章
|
7月前
|
自然语言处理 API 索引
ElasticSearch自定义pinyin和ik分词库
ElasticSearch自定义pinyin和ik分词库
80 0
|
自然语言处理 Java 开发工具
使用KIbana测试IK分词器
使用KIbana测试IK分词器
|
存储 自然语言处理 索引
ES分词器使用说明(analyzer)
本文章主要介绍了分词器的配置方法,以及分词器的优先级,同时配置了多个维度的分词器,哪一个分词器会生效,当出现分词结果不符合预期的时候,可以通过这个本文档内容进行梳理和排查。
2149 0
|
2月前
|
自然语言处理
Elasticsearch+IK+pinyin自定义分词器
Elasticsearch+IK+pinyin自定义分词器
29 0
|
9月前
|
自然语言处理 索引
【ES系列三】——ES集成ik分词并测试
解压后的结构如下图(需要放到elasticsearch安装目录的plugins文件夹下进行解压)
|
11月前
|
自然语言处理 索引
白话Elasticsearch29-IK中文分词之IK分词器配置文件+自定义词库
白话Elasticsearch29-IK中文分词之IK分词器配置文件+自定义词库
238 0
|
11月前
|
自然语言处理 安全 关系型数据库
白话Elasticsearch30-IK中文分词之热更新IK词库
白话Elasticsearch30-IK中文分词之热更新IK词库
128 0
|
11月前
|
自然语言处理 算法 应用服务中间件
Elasticsearch安装IK分词器、配置自定义分词词库
Elasticsearch安装IK分词器、配置自定义分词词库
316 0
|
自然语言处理 索引
elasticsearch hanlp插件自定义分词配置(停用词)
简述elasticsearch hanlp插件自定义分词配置,涉及停用词,专有名词
elasticsearch hanlp插件自定义分词配置(停用词)
|
自然语言处理 Java 开发工具
ES上传自编译IK分词插件
ES上传自编译IK分词插件
ES上传自编译IK分词插件