前言
目前开源的自然语言处理工具有NLTK,CoreNLP,LTP,HanLP。对于我们中国的程序员来说,一般使用哈工大的LTP,或者使用开源的HanLP。
我们后续的讲解都是基于HanLP工具,它具有词法分析,句法分析,关键词提取以及文本分析等。优点是运行特别快,省内存,精度准且免费的特性。
安装HanLP库
既然我们已经了解了HanLP库的优点,下面,我们安装该库用于后续的开发实战:
pip install pyhanlp -i https://pypi.tuna.tsinghua.edu.cn/simple
需要注意的是,该库依赖于Java与Jpype。所以需要提前安装Visual C++,或者可以不安装Visual C++,安装Miniconda也行。当然java jdk是必须安装的。
检验安装是否成功可以通过如下代码验证:
print(HanLP.segment("你好,欢迎来到HanLP世界"))
控制台输出如下内容,就表示安装成功:
至于什么意思后续会讲解,这里暂时用于验证安装是否成功。
词典的加载
互联网上有许多公开的词典,比如搜狗实验室发布的互联网词典SogouW,清华大学开放中文词典THUOCL,以及HanLP库自带的词典。这里,我们后续的讲解一般也是使用HanLP库自带的词典进行操作。
下面,我们通过Python调用词典数据:
def load_dictionary(): IOUtil = JClass('com.hankcs.hanlp.corpus.io.IOUtil') path = HanLP.Config.CoreDictionaryPath.replace('.txt', '.mini.txt') dic = IOUtil.loadDictionary([path]) return set(dic.keySet())
这里,我们首先获取到Java类IOUtil,然后取得HanLP库配置项Config中的词典路径。接着,使用IOUtil类的静态方法loadDictionary读取文件中的词典,它返回的是一个java Map对象,但我们不关心它的键值,所以将其转换一个python原生的set对象。运行之后,输出如下结果: