python调用Hanlp做命名实体识别以及词性标注

简介:

之前需要做一个中文命名实体识别的api,看完了一些相关论文以后觉得短时间内自己实现不大现实,于是找了一些开源工具,其中哈工大的LTP效果是很好的,但是免费使用限流量,需要给钱才行; NLPIR的pynlpir似乎还不能支持命名实体识别等复杂工作,只能做一些分词之类;最后还剩下Hanlp,感谢Hanlp的作者hancks无私的将代码开源,还提供了那么详细的文档。

pyhanlp只有少数功能,其他复杂一点的功能需要使用python调用java代码来实现。
以下是api的模型部分,大多是照着文档写成的。
python调用java需要jpype库,具体安装请参考之前的博客:jpype安装的简便方法

-- coding: utf-8 --

"""
Created on Thu May 10 09:19:55 2018

@author: wang小尧
"""

import jpype

路径

jvmPath = jpype.getDefaultJVMPath() # 获得系统的jvm路径
ext_classpath = r"./ner/hanlphanlp-1.6.3.jar:./ner/hanlp"
jvmArg = '-Djava.class.path=' + ext_classpath
jpype.startJVM(jvmPath, jvmArg, "-Xms1g", "-Xmx1g")

繁体转简体

def TraditionalChinese2SimplifiedChinese(sentence_str):

HanLP = jpype.JClass('com.hankcs.hanlp.HanLP')
return HanLP.convertToSimplifiedChinese(sentence_str)

切词&命名实体识别与词性标注(可以粗略识别)

def NLP_tokenizer(sentence_str):

NLPTokenizer = jpype.JClass('com.hankcs.hanlp.tokenizer.NLPTokenizer')
return NLPTokenizer.segment(sentence_str)

地名识别,标注为ns

def Place_Recognize(sentence_str):

HanLP = jpype.JClass('com.hankcs.hanlp.HanLP')
segment = HanLP.newSegment().enablePlaceRecognize(True)
return HanLP.segment(sentence_str)

人名识别,标注为nr

def PersonName_Recognize(sentence_str):

HanLP = jpype.JClass('com.hankcs.hanlp.HanLP')
segment = HanLP.newSegment().enableNameRecognize(True)
return HanLP.segment(sentence_str)

机构名识别,标注为nt

def Organization_Recognize(sentence_str):

HanLP = jpype.JClass('com.hankcs.hanlp.HanLP')
segment = HanLP.newSegment().enableOrganizationRecognize(True)
return HanLP.segment(sentence_str)

标注结果转化成列表

def total_result(function_result_input):

x = str(function_result_input)
y = x[1:len(x)-1]
y = y.split(',')
return y

时间实体

def time_result(total_result):

z = []
for i in range(len(total_result)):
    if total_result[i][-2:] == '/t':
        z.append(total_result[i])
return z

Type_Recognition 可以选 ‘place’,‘person’,‘organization’三种实体,

返回单一实体类别的列表

def single_result(Type_Recognition,total_result):

if Type_Recognition == 'place':
    Type = '/ns'
elif Type_Recognition == 'person':
    Type = '/nr'
elif Type_Recognition == 'organization':
    Type = '/nt'
else:
    print ('请输入正确的参数:(place,person或organization)')
z = []
for i in range(len(total_result)):
    if total_result[i][-3:] == Type:
        z.append(total_result[i])
return z

把单一实体结果汇总成一个字典

def dict_result(sentence_str):

sentence = TraditionalChinese2SimplifiedChinese(sentence_str)
total_dict = {}
a = total_result(Place_Recognize(sentence))
b = single_result('place',a)
c = total_result(PersonName_Recognize(sentence))
d = single_result('person',c)
e = total_result(Organization_Recognize(sentence))
f = single_result('organization',e)
g = total_result(NLP_tokenizer(sentence))
h = time_result(g)
total_list = [i for i in [b,d,f,h]]
total_dict.update(place = total_list[0],person = total_list[1],organization = total_list[2],time = total_list[3])
jpype.shutdownJVM()#关闭JVM虚拟机
return total_dict

测试

test_sentence="2018年武胜县新学乡政府大楼门前锣鼓喧天,6月份蓝翔给宁夏固原市彭阳县红河镇捐赠了挖掘机,中国科学院计算技术研究所的宗成庆教授负责教授自然语言处理课程,而他的学生现在正在香港看肉蒲团"
print (dict_result(test_sentence))

识别结果:

{'place': [' 武胜县/ns', ' 宁夏/ns', ' 固原市/ns', ' 彭阳县/ns', ' 红河镇/ns', ' 香港/ns'], 'person': [' 宗成庆/nr'], 'organization': [' 蓝翔/nt', ' 中国科学院计算技术研究所/nt'], 'time': ['2018年/t', ' 6月份/t', ' 现在/t']}

遇到的问题:
在弄这个api时遇到了一些问题,就是当我打开java虚拟机JVM,功能正常使用完关闭了JVM,但是再打开的时候就会报错,所以得一直保持一个JVM一直打开的状态,或者重启kernel才行。网上找了找也没能找到靠谱的解决方案,这个问题只有以后慢慢解决了。如果有人知道如何处理,可以给我发私信。

文章来源于wong小尧的博客

相关文章
|
1月前
|
Python
Python中的函数是**一种命名的代码块,用于执行特定任务或计算
Python中的函数是**一种命名的代码块,用于执行特定任务或计算
50 18
WK
|
3月前
|
Python
Python类命名
在Python编程中,类命名至关重要,影响代码的可读性和维护性。建议使用大写驼峰命名法(如Employee),确保名称简洁且具描述性,避免使用内置类型名及单字母或数字开头,遵循PEP 8风格指南,保持项目内命名风格一致。
WK
24 0
WK
|
3月前
|
Python
Python变量命名
在Python编程中,变量命名对代码的可读性和维护性至关重要。遵循PEP 8风格指南,变量名应使用小写字母和下划线分隔单词,保持简洁明了、描述性强,避免使用单字母、Python关键字和内置函数名,采用有意义的缩写,使用英文命名,保持命名风格一致,避免魔法数字,考虑上下文。正确示例:`user_name`、`order_quantity`;不正确示例:`n`、`q`。
WK
50 0
WK
|
3月前
|
Python
Python函数命名
在Python中,函数命名应清晰、简洁且易于理解。遵循PEP 8风格指南,使用小写字母和下划线分隔单词,避免单字母命名和保留字。函数名应描述功能,以动词开头,避免泛化名称,使用有意义的缩写,保持命名风格一致,避免魔法数字。示例包括 `calculate_area_of_circle`、`fetch_data_from_api` 和 `save_file_to_disk`。这些实践有助于创建易读、易维护的代码。
WK
35 0
|
4月前
|
IDE 开发工具 Python
python3代码编程规范(命名、空格、注释、代码布局、编程建议等)
该文章详细介绍了Python3的编程规范,包括命名、空格使用、注释、代码布局等方面的最佳实践,帮助提升代码的可读性和一致性。
74 0
|
5月前
|
存储 Python
python变量命名规则
【8月更文挑战第4天】
98 5
|
5月前
|
存储 IDE 开发工具
Python中变量命名规则
【8月更文挑战第5天】
174 4
|
5月前
|
Python
python 随机划分图片数据集以及移动标注
这篇文章提供了一个Python脚本,用于随机划分图片数据集为训练集和测试集,并将对应的标注文件移动到相应的子文件夹中,以减少训练使用的数据量。
|
6月前
|
机器学习/深度学习 数据采集 算法
Python基于OpenCV和卷积神经网络CNN进行车牌号码识别项目实战
Python基于OpenCV和卷积神经网络CNN进行车牌号码识别项目实战
|
6月前
|
机器学习/深度学习 TensorFlow 数据处理
使用Python实现深度学习模型:医学影像识别与疾病预测
【7月更文挑战第24天】 使用Python实现深度学习模型:医学影像识别与疾病预测
95 4