hanlp添加自定义字典的步骤介绍

简介: 本篇分享一个hanlp添加自定义字典的方法,供大家参考!总共分为两步:第一步:将自定义的字典放到custom目录下,然后删除CustomDicionary.txt.bin,因为分词的时候会读这个文件。

本篇分享一个hanlp添加自定义字典的方法,供大家参考!
总共分为两步:
第一步:将自定义的字典放到custom目录下,然后删除CustomDicionary.txt.bin,因为分词的时候会读这个文件。如果没有的话它会根据配置文件中路径去加载字典生成bin文件。
_1

第二步:去配置文件把自己添加自定义的文件的路径添加进去,注意一定要添加末尾后面而且结束时不能有;号,我添加在其他位置都不好使。而且相对路径也不好使
_2

上面是把bin文件删掉后跑起来的样子,会等一两分钟生成bin文件。

相关文章
|
6天前
|
开发工具 数据安全/隐私保护 git
字典生成工具 -- pydictor
字典生成工具 -- pydictor
61 0
|
6天前
|
数据安全/隐私保护 Python
字典生成工具 -- CUPP
字典生成工具 -- CUPP
27 2
|
11月前
|
存储 索引 Python
12.从入门到精通:Python字典,创建字典,访问字典的值,修改字典,删除字典,字典键的特性,字典内置函数和方法
12.从入门到精通:Python字典,创建字典,访问字典的值,修改字典,删除字典,字典键的特性,字典内置函数和方法
|
12月前
|
自然语言处理 搜索推荐 Python
jieba分词器(应用及字典的补充)及文档高频词提取实战
jieba分词器(应用及字典的补充)及文档高频词提取实战
|
Python
python批量默认初始化与获取字典,fromkeys方法和get方法
python批量默认初始化与获取字典,fromkeys方法和get方法
168 0
|
Python
如何使用python对列表、字典、集合进行过滤筛选?
如何使用python对列表、字典、集合进行过滤筛选?
131 0
|
存储 Python
Python基础 字典(字典的特点与各种详细的使用方法)
Python字典的各种使用方式,基础技巧,详细特点
Python基础 字典(字典的特点与各种详细的使用方法)
|
Python
Python批量提取多目录下多个word文档中的图片
Python批量提取多目录下多个word文档中的图片
173 0
|
自然语言处理 应用服务中间件 nginx
hanlp 加载远程词库示例
说明 ·目前的实现方式是以远程词库的内容重新构建CustomDictionary.trie,demo主要是为了实现同步远程词库,对性能暂不作考虑,对性能要求要以CustomDictionary.dat为基础实现 按hanlp作者述 trie后期可能会取消   目前CustomDictionary使用DAT储存词典文件中的词语,用BinTrie储存动态加入的词语,前者性能高,后者性能低 之所以保留动态增删功能,一方面是历史遗留特性,另一方面是调试用;来可能会去掉动态增删特性。
1192 0
|
容器 存储
如何使用Hanlp加载大字典
    问题 因为需要加载一个 近 1G 的字典到Hanlp中,一开始使用了CustomDictionay.add() 方法来一条条的加载,果然到了中间,维护DoubleArraTre 的成本太高,添加一个节点,都会很长时间,本来时间长一点没有关系,只要训练出.bin 的文件,第二次加载就会很快,然而作为以空间换时间的DAT结构,内存消耗很大,预料之内的出现了 1   out of memory: heap size 的问题。
1614 0