前言
我们学习只考虑hanlp词典(其他词典:互联网词库和清华大学开放中文词库等)
一、词库的格式了解
第一列是词典的单词本身,第二列和第三列是词性与词频,当然一个词可能有很多词性,之后就会有第四列和第五列的词性和词频
例如下图的
二、词典的加载
1.引入数据
去GitHub下载对应使用的版本的资源包
将其复制后放置在idea如下结构位置:
至于model,下载的文件里面目前只有一个说明文档,先不管,之后如有需要了,我们再去下载模型包
2.开始使用
创建demo,类名随便起,根据你自己的喜好
代码如下(示例):
public class NaiveDictionaryBasedSegmentation { public static void main(String[] args) throws IOException { // 加载词典 TreeMap<String, CoreDictionary.Attribute> dictionary = IOUtil.loadDictionary("此处填写你自己的文件的路径,下面附上我的截图"); System.out.printf("词典大小:%d个词条\n", dictionary.size()); System.out.println(dictionary.keySet().iterator().next()); } }
路径可以直接右键点击txt文件后copy path即可
执行代码
得到结果:
第一行显示的词条总数
第二行显示的是词典中第一个单词是什么在这里插入代码片
词典大小:85584个词条 ± Process finished with exit code 0
最后
Python版同理
此处附上代码及演示截图:
# -*- coding:utf-8 -*- from pyhanlp import * def load_dictionary(): """ 加载HanLP中的mini词库 :return: 一个set形式的词库 """ IOUtil = JClass('com.hankcs.hanlp.corpus.io.IOUtil') path = HanLP.Config.CoreDictionaryPath.replace('.txt', '.mini.txt') dic = IOUtil.loadDictionary([path]) return set(dic.keySet()) if __name__ == '__main__': dic = load_dictionary() print(len(dic)) print(list(dic)[0])
稍作解释:
JClass来根据java包名获取Python类
HanLP.Config.CoreDictionaryPath根据之前的配置文件来获取词典位置
为了方便加载更快,换用mini.txt,故使用replace来替换路径中的后缀
但是,此处我有点迷,最终结果的第二行输出并不是词典第一个单词,我对代码进行了稍微修改,输出了文件的路径,并打开文件对照,仍然不对,此处问题等待我之后明白之后再回改此博客,暂时不做处理。