Hanlp汉字转拼音使用python调用详解

简介: 1、hanlp简介HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

1、hanlp简介

HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

开源网址:HanLP: Han Language Processing

但由于hanlp是用java来实现的,要在python中使用hanlp,只能通过调用pyhanlp这个包来。

但是pyhanlp里面有一些功能仍然不支持python直接调用,比如汉字转拼音,这时候就需要从python中启动jvm并指定Hanlp的jar路径来使用其他功能了。

2、下载并配置文件

1)从开源网址中下载jar、data、hanlp.properties并修改配置文件:

1、下载:data.zip

下载后解压到任意目录,接下来通过配置文件hanlp.properties告诉HanLP数据包的位置。

data

├─dictionary

└─model

用户可以自行增删替换,如果不需要句法分析等功能的话,随时可以删除model文件夹。

3、下载jar和配置文件:hanlp-release.zip

1配置文件hanlp.properties的作用是告诉HanLP数据包的位置,只需修改第一行为data的父目录即可:

root=D:/JavaProjects/HanLP/

比如data目录是/Users/hankcs/Documents/data,那么root=/Users/hankcs/Documents/ 。

2)从python中启动jvm以及添加jar包路径

 

2e4d4a9bcf783fb451379dcedc39989aadd3ad89

其中-Djava.class.path是用来添加jar包到classpath中,然后用startJVM来启动jvm。

startJVM第一个参数是系统内的jvm位置,第二个为*arg参数,此处放置classpath。


2197faba7662682ff2056eda1c9ee2bb35957b77

以上得到的是java的ArrayList类型,需要将他装换为string类型:

 

affd2afe88ceb86f41072c1a2ce5114824b7bf1f

结果如下:


8542ed1204629207439337b9038e23f96ee9e19c

4、最后记得关闭JVM


f8f4e165336ea5af45b2f72b69176d8712de14aa

--------------------



 

相关文章
|
Python
python 姓名转拼音
python 姓名转拼音
54 0
|
7月前
|
数据采集 自然语言处理 Python
深入探索Python中的汉字处理技巧
深入探索Python中的汉字处理技巧
101 1
|
3月前
|
Shell Python
9-5|python将中文转化为拼音
9-5|python将中文转化为拼音
|
3月前
|
数据采集 自然语言处理 数据挖掘
python查询汉字函数
简洁、高效、易懂的代码对于提高开发效率与项目质量至关重要,并且对于维持代码的可读性和可维护性也有着很大帮助。选择正确的工具和方法可以大幅提升处理中文数据的效率。在编写用户定义函数时,明确函数的功能与返回值类型对于函数的复用和调试也同样重要。当涉及到复杂的文本处理或数据分析时,不宜过分依赖单一的工具或方法,而应根据具体需求灵活选择和组合不同的技术手段。
37 0
|
4月前
|
Python
Python openpyxl 将 Excel中的汉字 转换成拼音首字母
Python openpyxl 将 Excel中的汉字 转换成拼音首字母
54 0
|
4月前
|
JSON 数据格式 Python
Python 将省、市 json 替换 成拼音
Python 将省、市 json 替换 成拼音
57 0
|
7月前
|
JSON 数据可视化 定位技术
python_将包含汉字的字典数据写入json(将datav的全省数据中的贵州区域数据取出来)
python_将包含汉字的字典数据写入json(将datav的全省数据中的贵州区域数据取出来)
67 0
|
7月前
|
Python
Python小技巧:判断输入是否为汉字/英文/数字
Python小技巧:判断输入是否为汉字/英文/数字
|
存储 编解码
[oeasy]python0125_汉字打印机_点阵式打字机_汉字字形码
[oeasy]python0125_汉字打印机_点阵式打字机_汉字字形码
117 0
[oeasy]python0125_汉字打印机_点阵式打字机_汉字字形码