初体验HanLP---Python自然语言处理(1)

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 初体验HanLP---Python自然语言处理(1)

前言


目前开源的自然语言处理工具有NLTK,CoreNLP,LTP,HanLP。对于我们中国的程序员来说,一般使用哈工大的LTP,或者使用开源的HanLP。


我们后续的讲解都是基于HanLP工具,它具有词法分析,句法分析,关键词提取以及文本分析等。优点是运行特别快,省内存,精度准且免费的特性。


安装HanLP库


既然我们已经了解了HanLP库的优点,下面,我们安装该库用于后续的开发实战:

pip install pyhanlp -i https://pypi.tuna.tsinghua.edu.cn/simple

需要注意的是,该库依赖于Java与Jpype。所以需要提前安装Visual C++,或者可以不安装Visual C++,安装Miniconda也行。当然java jdk是必须安装的。


检验安装是否成功可以通过如下代码验证:

print(HanLP.segment("你好,欢迎来到HanLP世界"))

控制台输出如下内容,就表示安装成功:


至于什么意思后续会讲解,这里暂时用于验证安装是否成功。


词典的加载


互联网上有许多公开的词典,比如搜狗实验室发布的互联网词典SogouW,清华大学开放中文词典THUOCL,以及HanLP库自带的词典。这里,我们后续的讲解一般也是使用HanLP库自带的词典进行操作。


下面,我们通过Python调用词典数据:

def load_dictionary():
    IOUtil = JClass('com.hankcs.hanlp.corpus.io.IOUtil')
    path = HanLP.Config.CoreDictionaryPath.replace('.txt', '.mini.txt')
    dic = IOUtil.loadDictionary([path])
    return set(dic.keySet())


这里,我们首先获取到Java类IOUtil,然后取得HanLP库配置项Config中的词典路径。接着,使用IOUtil类的静态方法loadDictionary读取文件中的词典,它返回的是一个java Map对象,但我们不关心它的键值,所以将其转换一个python原生的set对象。运行之后,输出如下结果:

目录
打赏
0
0
0
0
20
分享
相关文章
数据代码分享|PYTHON用NLP自然语言处理LSTM神经网络TWITTER推特灾难文本数据、词云可视化
数据代码分享|PYTHON用NLP自然语言处理LSTM神经网络TWITTER推特灾难文本数据、词云可视化
【自然语言处理】python之人工智能应用篇——文本生成技术
文本生成是指使用自然语言处理技术,基于给定的上下文或主题自动生成人类可读的文本。这种技术可以应用于各种领域,如自动写作、聊天机器人、新闻生成、广告文案创作等。
199 8
使用Python实现深度学习模型:文本生成与自然语言处理
【7月更文挑战第14天】 使用Python实现深度学习模型:文本生成与自然语言处理
204 12
使用Python实现深度学习模型:自然语言理解与问答系统
【7月更文挑战第20天】 使用Python实现深度学习模型:自然语言理解与问答系统
71 0
使用Python实现深度学习模型:自然语言理解与问答系统
Python自然语言处理实战:文本分类与情感分析
本文探讨了自然语言处理中的文本分类和情感分析技术,阐述了基本概念、流程,并通过Python示例展示了Scikit-learn和transformers库的应用。面对多义性理解等挑战,研究者正探索跨域适应、上下文理解和多模态融合等方法。随着深度学习的发展,这些技术将持续推动人机交互的进步。
368 1
Python 高级实战:基于自然语言处理的情感分析系统
**摘要:** 本文介绍了基于Python的情感分析系统,涵盖了从数据准备到模型构建的全过程。首先,讲解了如何安装Python及必需的NLP库,如nltk、sklearn、pandas和matplotlib。接着,通过抓取IMDb电影评论数据并进行预处理,构建情感分析模型。文中使用了VADER库进行基本的情感分类,并展示了如何使用`LogisticRegression`构建机器学习模型以提高分析精度。最后,提到了如何将模型部署为实时Web服务。本文旨在帮助读者提升在NLP和情感分析领域的实践技能。
431 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等