在Hanlp词典和jieba词典中手动添加未登录词

2018-11-16 1758

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

在使用Hanlp词典或者jieba词典进行分词的时候，会出现分词不准的情况，原因是内置词典中并没有收录当前这个词，也就是我们所说的未登录词，只要把这个词加入到内置词典中就可以解决类似问题，如何操作呢，下面我们来看一下：

一，在Hanlp词典中添加未登录词
1.找到hanlp内置词典目录
位于D:hnlphanlp_codehanlpdatadictionarycustom

也就是Hanlp安装包中的datadictionarycustom下目录

2.将未登录词以词名，词性，词频的格式添加到文件中（句首或者句尾都可以）

3.将字典的同名bin文件删除掉
执行文件时读取的是bin文件，必须删掉后等下次执行时重新生成，新字典才发挥作用

4.使用新字典重新执行文件
执行时会遇到没有相关bin文件的提示，不过放心，程序会自动生成一个新的bin文件，骚等片刻，就好了。

验证结果是否正确

二，在jieba词典中添加未登录词
先来看看没添加登录词的效果

好我们需要开始添加未登录词了

1.新建一个dict.txt文件，将未登录词直接添加到txt文件中

2.加载dict.txt文件
这个过程有一步要动态调整词频，因为词典默认是从词频较高的词开始匹配，调整未登录词的词频靠前，这样可以优先匹配

-- coding=utf8 --

import jieba
import re

将添加有未登录词的词典加载进来

jieba.load_userdict("D:hnlphanlp_codedict.txt")

动态调整词频，让未登录词的词频自动靠前，这样可以优先匹配

[jieba.suggest_freq(line.strip(), tune=True) for line in open("dict.txt",'r',encoding='utf8')]

string="TNM分期不太能明确地区分 ,以及辅助治疗（氟尿嘧啶单药或联合奥沙利铂）"

words=jieba.cut(string,HMM=False)
print('/'.join(words))
3.验证分词是否有效

哦，好的，就是这样！完美！

文章来源于小鱼儿的博客

在Hanlp词典和jieba词典中手动添加未登录词

-- coding=utf8 --

将添加有未登录词的词典加载进来

动态调整词频，让未登录词的词频自动靠前，这样可以优先匹配

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

在Hanlp词典和jieba词典中手动添加未登录词

-- coding=utf8 --

将添加有未登录词的词典加载进来

动态调整词频，让未登录词的词频自动靠前，这样可以优先匹配

热门文章

最新文章

相关电子书