自定义词库 | 学习笔记

简介: 快速学习自定义词库

开发者学堂课程【ElasticSearch 入门精讲自定义词库学习笔记,与课程紧密连接,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/631/detail/10015


自定义词库


内容介绍:

一、讲义

二、演示


一、讲义

如何自定义词库呢?

在 plugins config 目录下,

有一个配置文件叫做 IKAnalyzer.cfg.xml

image.png

我们可以确认一下在哪里,进入 FinalShell,在 1 JANSON01 中输入

cd ~/es/plugins/

ll

cd analysis-ik/

ll

cd config/

ll

可以看到

image.png

vim IKAnalyzer.cfg.xml

显示如图

image.png

修改 IKAnalyzer.cfg.xml

<entrykey= “ext_dict”>custom/mydict.dic;custom/single_word_low_f

req.dict</entry>为例

打开 custom 文件夹,mydict.dic,编辑文件

然后再重新启动 es

重新修改文档,再次搜索,可以查询到结果


二、演示

在 1 JANSON01 中输入:ql

然后输入

su -l root

123

cd /home/jerry/es/plugins/

ll

cd analysis-ik/

ll

cd config/

ll

vim IKAnalyzer.cfg.xml

在<entry key=“ext_dict”></entry>中输入 customer/mydic.dic

<entry key= “ext_dict”>customer/mydic.dic</entry>

然后在下方输入 :wq

再输入 jps

image.png

再在 1 JANSON01中输入

ll

mkdir costomer

mv costomer/ customer

ll

cd customer/

vim mydic.dic

输入不明觉厉

在下面输入 :wq

再返回输入

jps

cd..

ll

在下方输入 pkill -f Elasticsearch,再输入 jps

image.png

然后输入 ll

cd..

scp-rconfig/ root@janson02:/home/jerry/es/plugins/analysis-ik/

scp-rconfig/ root@janson03:/home/jerry/es/plugins/analysis-ik/

然后在2 JANSON02中查看,输入

cd  /home/jerry/es/plugins/

ll

cd analysis-ik/

ll

cd config/

ll

可以看到有一个 customer

然后在 1 JANSON01 中后台终端输入

su -l jerry

~/es/bin/elasticsearch -d

jps

clear

jps

重新查询一下

image.png

在1 JANSON01中如何配置,输入

cd ~/es/

ll

cd config/

ll

cd analysis-ik/

ll

cd customer/

ll

cd..

ll

vim IKAnalyzer.cfg.xml

在下方输入 :ql 设置完成

需要注意在 plugins 和 config 目录下都要配置

相关文章
|
2月前
|
API
查词语字典[38万词库]免费API接口教程
此接口用于查询指定词语的解释信息。支持POST或GET请求,需提供用户ID、用户KEY及待查询词语(URL编码)。返回状态码、信息提示及词语释义。示例中ID与KEY为公共账号,建议使用个人账号以享受更高调用频率。
|
机器学习/深度学习 存储 自然语言处理
Jieba分词模式详解、词库的添加与删除、自定义词库失败的处理
Jieba(结巴)是一个中文分词第三方库,它可以帮助我们将一段中文文本分成一个个独立的词语。Jieba具有以下特点: 简单易用:Jieba提供了简洁的API接口,易于使用和扩展。可以快速地实现中文分词功能。 高效准确:Jieba采用了基于前缀词典和动态规划算法的分词方法,能够高效准确地处理各种中文文本。 支持多种分词模式:Jieba提供了三种分词模式:精确模式、全模式和搜索引擎模式,可以根据不同的应用场景选择合适的模式。
Jieba分词模式详解、词库的添加与删除、自定义词库失败的处理
|
自然语言处理 索引
elasticsearch hanlp插件自定义分词配置(停用词)
简述elasticsearch hanlp插件自定义分词配置,涉及停用词,专有名词
elasticsearch hanlp插件自定义分词配置(停用词)
|
自然语言处理 开发工具 网络架构
自定义词库|学习笔记
快速学习自定义词库。
223 0
自定义词库|学习笔记
|
自然语言处理 算法
HanLP用户自定义词典源码分析详解
HanLP作者在HanLP issue783:上面说:词典不等于分词、分词不等于自然语言处理;推荐使用语料而不是词典去修正统计模型。由于分词算法不能将一些“特定领域”的句子分词正确,于是为了纠正分词结果,把想要的分词结果添加到自定义词库中,但最好使用语料来纠正分词的结果。
1731 0
|
自然语言处理 应用服务中间件 nginx
hanlp 加载远程词库示例
说明 ·目前的实现方式是以远程词库的内容重新构建CustomDictionary.trie,demo主要是为了实现同步远程词库,对性能暂不作考虑,对性能要求要以CustomDictionary.dat为基础实现 按hanlp作者述 trie后期可能会取消   目前CustomDictionary使用DAT储存词典文件中的词语,用BinTrie储存动态加入的词语,前者性能高,后者性能低 之所以保留动态增删功能,一方面是历史遗留特性,另一方面是调试用;来可能会去掉动态增删特性。
1221 0
|
自然语言处理 Python Java
HanLP的自定义词典使用方式与注意事项介绍
对于词典,直接加载文本会很慢,所以HanLP对于文本文件做了一些预处理,生成了后缀名为.txt.bin的二进制文件。
2645 0
|
自然语言处理 Python 缓存

热门文章

最新文章