汉语言处理包Hanlp的使用

简介:

本来想通过python调用Java实现Hanlp的使用,参考文章:http://t.cn/RUrIF7z

python可以用easy_install安装一些软件

1.JPype使用介绍
参考:http://michael-paul.iteye.com/blog/1055786
Python 作为一种灵活的软件开发语言在当今被广泛使用。在软件开发过程中,有时需要在 Python 项目中利用既有的 Java 代码,已达到节省时间和开发成本的目的。因此,找到一个 Python 代码调用 Java 代码的桥梁是非常有意义的。 JPype 就是这样的一个工具,利用它可以使 Python 程序方便的调用 Java 代码,从而扩充 Python 语言的能力,弥补 Python 语言的不足。本文介绍了如何利用 JPype 整合 Python 程序和 Java 程序的一些基本方法。
下面是一个简单的 python 程序,通过 JPype 调用 Java 的打印函数,打印出字符串。
清单 1. hello world
import jpype
jvmPath = jpype.getDefaultJVMPath()
jpype.startJVM(jvmPath)
jpype.java.lang.System.out.println( “ hello world! ” )
jpype.shutdownJVM()
运行该例程的时候,getDefaultJVMPath()找不到默认的jvm路径,检查发现在命令行下输入java和javac都是没问题,而且已经配置好环境变量。找到jpype官方文档给的例程(http://jpype.sourceforge.net/doc/user-guide/userguide.html),使用说明(http://blog.csdn.net/niuyisheng/article/details/9002926)发现历程中jdk中jre文件有client文件夹,而现在版本只有server文件夹,然后找一篇文章介绍jvm中client模式和server模式的区别(http://ryxxlong.iteye.com/blog/1696537),发现他们用的都是jdk1.6,而现在的版本是jdk1.8,猜想新版本已经没有该功能了,把jdk换成1.6版本还是发现没有client文件夹,放弃在python中调用java包Hanlp,直接在java程序中使用hanlp。

11大Java开源中文分词器的使用方法和分词效果对比:
http://my.oschina.net/apdplat/blog/412921?fromerr=jF95Yz4r

2.关于HanLP
HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包,支持:
中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),
命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),
关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、神经网络依存句法分析)。
Hanlp的安装和入门说明:http://hanlp.linrunsoft.com/doc/_build/html/getting_started.html#hanlp
HanLP 中的数据分为 词典 和 模型 ,其中 词典 是词法分析必需的, 模型 是句法分析必需的
官网demo:https://github.com/hankcs/HanLP/tree/master/src/test/java/com/hankcs/demo
image

文章来源于zhangqiang1104的博客

相关文章
|
5月前
|
自然语言处理 Java
hanlp使用jar包内的模型
【8月更文挑战第19天】hanlp使用jar包内的模型
91 1
|
自然语言处理 搜索推荐 Java
Hanlp等七种优秀的开源中文分词库推荐
中文分词是中文文本处理的基础步骤,也是中文人机自然语言交互的基础模块。由于中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词。
3917 0
Hanlp等七种优秀的开源中文分词库推荐
|
自然语言处理 搜索推荐 索引
基于hanlp的es分词插件
摘要:elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,组织机构名等来切分词Elasticsearch默认分词 输出: IK分词 输出: hanlp...
1542 0
|
自然语言处理
Ansj与hanlp分词工具对比
一、Ansj1、利用DicAnalysis可以自定义词库: 2、但是自定义词库存在局限性,导致有些情况无效:比如:“不好用“的正常分词结果:“不好,用”。 (1)当自定义词库”好用“时,词库无效,分词结果不变。
1138 0
|
算法 Java
汉语言处理工具pyhanlp的简繁转换
HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。
1603 0
|
自然语言处理 算法
中文分词算法工具hanlp源码解析
词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图。
1706 0
|
自然语言处理 Java 开发工具
如何编译运行HanLP自然语言处理包
master分支 对于master分支,编译方法如下: git clone  https://github.com/hankcs/HanLP.git mvn install -DskipTests   ·由于目前一些test不够规范,使用了硬编码路径下的资源,所以暂时跳过单元测试。
1359 0
|
自然语言处理
在Hanlp词典手动添加未登录词的方式介绍
在使用Hanlp词典进行分词的时候,会出现分词不准的情况,原因是内置词典中并没有收录当前这个词,也就是我们所说的未登录词,只要把这个词加入到内置词典中就可以解决类似问题,如何操作呢,
1144 0