初体验HanLP---Python自然语言处理(1)

简介: 初体验HanLP---Python自然语言处理(1)

前言


目前开源的自然语言处理工具有NLTK,CoreNLP,LTP,HanLP。对于我们中国的程序员来说,一般使用哈工大的LTP,或者使用开源的HanLP。


我们后续的讲解都是基于HanLP工具,它具有词法分析,句法分析,关键词提取以及文本分析等。优点是运行特别快,省内存,精度准且免费的特性。


安装HanLP库


既然我们已经了解了HanLP库的优点,下面,我们安装该库用于后续的开发实战:

pip install pyhanlp -i https://pypi.tuna.tsinghua.edu.cn/simple

需要注意的是,该库依赖于Java与Jpype。所以需要提前安装Visual C++,或者可以不安装Visual C++,安装Miniconda也行。当然java jdk是必须安装的。


检验安装是否成功可以通过如下代码验证:

print(HanLP.segment("你好,欢迎来到HanLP世界"))

控制台输出如下内容,就表示安装成功:


至于什么意思后续会讲解,这里暂时用于验证安装是否成功。


词典的加载


互联网上有许多公开的词典,比如搜狗实验室发布的互联网词典SogouW,清华大学开放中文词典THUOCL,以及HanLP库自带的词典。这里,我们后续的讲解一般也是使用HanLP库自带的词典进行操作。


下面,我们通过Python调用词典数据:

def load_dictionary():
    IOUtil = JClass('com.hankcs.hanlp.corpus.io.IOUtil')
    path = HanLP.Config.CoreDictionaryPath.replace('.txt', '.mini.txt')
    dic = IOUtil.loadDictionary([path])
    return set(dic.keySet())


这里,我们首先获取到Java类IOUtil,然后取得HanLP库配置项Config中的词典路径。接着,使用IOUtil类的静态方法loadDictionary读取文件中的词典,它返回的是一个java Map对象,但我们不关心它的键值,所以将其转换一个python原生的set对象。运行之后,输出如下结果:

相关文章
|
30天前
|
数据采集 自然语言处理 算法
如何使用Python的Gensim库进行自然语言处理和主题建模?
使用Gensim库进行自然语言处理和主题建模,首先通过`pip install gensim`安装库,然后导入`corpora`, `models`等模块。对数据进行预处理,包括分词和去除停用词。接着,创建字典和语料库,使用`Dictionary`和`doc2bow`。之后,应用LDA算法训练模型,设置主题数量并创建`LdaModel`。最后,打印每个主题的主要关键词。可以根据需求调整参数和选择不同算法。
22 0
|
3月前
|
机器学习/深度学习 自然语言处理 算法框架/工具
在Python中进行自然语言处理(NLP)的进阶应用
在Python中进行自然语言处理(NLP)的进阶应用
40 3
|
3月前
|
机器学习/深度学习 自然语言处理 算法
在Python中进行自然语言处理(NLP)的文本预处理
在Python中进行自然语言处理(NLP)的文本预处理
54 1
|
3月前
|
机器学习/深度学习 自然语言处理 机器人
Python 自然语言处理实用指南:第三部分
Python 自然语言处理实用指南:第三部分
|
3月前
|
机器学习/深度学习 自然语言处理 TensorFlow
在Python中进行自然语言处理(NLP)的深度学习
在Python中进行自然语言处理(NLP)的深度学习
34 3
|
28天前
|
机器学习/深度学习 数据采集 自然语言处理
利用Python实现基于自然语言处理的情感分析
本文将介绍如何利用Python编程语言,结合自然语言处理技术,实现情感分析。通过对文本数据进行情感分析,可以帮助我们了解用户对产品、服务或事件的情感倾向,为市场调研和舆情分析提供有力支持。文章将涵盖文本预处理、情感词典构建以及情感分析模型的搭建与应用等内容,旨在帮助读者深入理解情感分析的原理和实践应用。
|
1月前
|
机器学习/深度学习 自然语言处理 PyTorch
用 Python 进行自然语言处理。
【2月更文挑战第13天】【2月更文挑战第36篇】用 Python 进行自然语言处理。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
自然语言处理基础:Python 文本分析
自然语言处理 (NLP) 是计算机科学和人工智能领域的一个重要分支,它涉及对文本数据的分析、理解和生成。在 Python 中,我们可以使用各种 NLP 库和工具来进行文本分析,提取有用的信息并执行各种自然语言任务。
|
3月前
|
机器学习/深度学习 自然语言处理 API
在Python中进行自然语言处理(NLP)的基础任务
在Python中进行自然语言处理(NLP)的基础任务
25 3
|
3月前
|
自然语言处理 算法 API
在Python中进行自然语言处理,安装必要的库
在Python中进行自然语言处理,安装必要的库
19 1

热门文章

最新文章