pyhanlp 两种依存句法分类器

简介:

 

依存句法分析器

HanLP中一共有两种句法分析器

·依存句法分析

1基于神经网络的高性能依存句法分析器

2MaxEnt依存句法分析

基于神经网络的高性能依存句法分析器

HanLP中的基于神经网络的高性能依存句法分析器参考的是14年Chen&Manning的论文(A Fast and Accurate Dependency Parser using Neural Networks),这里还有一个发在了Github的实现程序,其实现语言为Python。除此之外,你还可以参考ljj123zz 的CSDN 一篇博客:blog.csdn.net/ljj123zz/article/details/78834838

HanLP作者的原文介绍已经写得比较清楚,唯一要注意的是原文章中介绍的依存句法分析器为早期版本,输出的依存关系为英文,现在应该变为中文,而且从测试结果看,训练语料应该已经更新了,但是更新为了那个语料现在还不会是很清楚。

3256c5013a18647dfa20f50c0133290101f3290b 

hanlp开源项目负责人hankcs

基于最大熵的依存句法分析器

经过测试这个句法分析器为真的很坑,绝对不建议使用,测试代码见最后,作者原文介绍请点击www.hankcs.com/nlp/parsing/to-achieve-the-maximum-entropy-of-the-dependency-parser.html

下面是使用的例子

基于神经网络的高性能依存句法分析器

from pyhanlp import *

# 依存句法分析

sentence = HanLP.parseDependency("徐先生还具体帮助他确定了把画雄鹰、松鼠和麻雀作为主攻目标。")

 

print(sentence)

 

for word in sentence.iterator():  # 通过dir()可以查看sentence的方法

    print("%s --(%s)--> %s" % (word.LEMMA, word.DEPREL, word.HEAD.LEMMA))

print()

 

# 也可以直接拿到数组,任意顺序或逆序遍历

word_array = sentence.getWordArray()

for word in word_array:

    print("%s --(%s)--> %s" % (word.LEMMA, word.DEPREL, word.HEAD.LEMMA))

print()

 

# 还可以直接遍历子树,从某棵子树的某个节点一路遍历到虚根

CoNLLWord = JClass("com.hankcs.hanlp.corpus.dependency.CoNll.CoNLLWord")

head = word_array[12]

while head.HEAD:

    head = head.HEAD

    if (head == CoNLLWord.ROOT):

        print(head.LEMMA)

    else:

        print("%s --(%s)--> " % (head.LEMMA, head.DEPREL))

1 徐先生 徐先生 nh nr _ 4 主谓关系 _ _

2 d d _ 4 状中结构 _ _

3 具体 具体 a ad _ 4 状中结构 _ _

4 帮助 帮助 v v _ 0 核心关系 _ _

5 r r _ 4 兼语 _ _

6 确定 确定 v v _ 4 动宾关系 _ _

7 u u _ 6 右附加关系 _ _

8 p p _ 15 状中结构 _ _

9 v v _ 8 介宾关系 _ _

10 雄鹰 雄鹰 n n _ 9 动宾关系 _ _

11 wp w _ 12 标点符号 _ _

12 松鼠 松鼠 n n _ 10 并列关系 _ _

13 c c _ 14 左附加关系 _ _

14 麻雀 麻雀 n n _ 10 并列关系 _ _

15 作为 作为 v v _ 6 动宾关系 _ _

16 主攻 主攻 v vn _ 17 定中关系 _ _

17 目标 目标 n n _ 15 动宾关系 _ _

18 wp w _ 4 标点符号 _ _

 

徐先生 --(主谓关系)--> 帮助

--(状中结构)--> 帮助

具体 --(状中结构)--> 帮助

帮助 --(核心关系)--> ##核心##

--(兼语)--> 帮助

确定 --(动宾关系)--> 帮助

--(右附加关系)--> 确定

--(状中结构)--> 作为

--(介宾关系)--> 把

雄鹰 --(动宾关系)--> 画

--(标点符号)--> 松鼠

松鼠 --(并列关系)--> 雄鹰

--(左附加关系)--> 麻雀

麻雀 --(并列关系)--> 雄鹰

作为 --(动宾关系)--> 确定

主攻 --(定中关系)--> 目标

目标 --(动宾关系)--> 作为

--(标点符号)--> 帮助

 

徐先生 --(主谓关系)--> 帮助

--(状中结构)--> 帮助

具体 --(状中结构)--> 帮助

帮助 --(核心关系)--> ##核心##

--(兼语)--> 帮助

确定 --(动宾关系)--> 帮助

--(右附加关系)--> 确定

--(状中结构)--> 作为

--(介宾关系)--> 把

雄鹰 --(动宾关系)--> 画

--(标点符号)--> 松鼠

松鼠 --(并列关系)--> 雄鹰

--(左附加关系)--> 麻雀

麻雀 --(并列关系)--> 雄鹰

作为 --(动宾关系)--> 确定

主攻 --(定中关系)--> 目标

目标 --(动宾关系)--> 作为

--(标点符号)--> 帮助

 

麻雀 --(并列关系)-->

雄鹰 --(动宾关系)-->

--(介宾关系)-->

--(状中结构)-->

作为 --(动宾关系)-->

确定 --(动宾关系)-->

帮助 --(核心关系)-->

##核心##

最大熵依存句法分析器

MaxEntDependencyParser = JClass("com.hankcs.hanlp.dependency.MaxEntDependencyParser")

 

print("hankcs每天都在写程序")

print(MaxEntDependencyParser.compute("hankcs每天都在写程序"))

print("吴彦祖每天都在写程序")

print(MaxEntDependencyParser.compute("吴彦祖每天都在写程序"))

hankcs每天都在写程序

1 hankcs hankcs x x _ 6 限定 _ _

2 每天 每天 r r _ 5 施事 _ _

3 d d _ 5 程度 _ _

4 d d _ 5 程度 _ _

5 v v _ 0 核心成分 _ _

6 程序 程序 n n _ 5 内容 _ _

 

吴彦祖每天都在写程序

1 吴彦祖 吴彦祖 n nr _ 5 施事 _ _

2 每天 每天 r r _ 5 施事 _ _

3 d d _ 5 程度 _ _

4 d d _ 5 程度 _ _

5 v v _ 0 核心成分 _ _

6 程序 程序 n n _ 5 内容 _ _

 

作者:FontTian

原文地址:https://www.cnblogs.com/fonttian/p/9819774.html

相关文章
|
数据可视化 数据挖掘
基于Bert的文本聚类工具:BERTopic
基于Bert的文本聚类工具:BERTopic
1776 0
基于Bert的文本聚类工具:BERTopic
|
3月前
|
自然语言处理
HanLP — HMM隐马尔可夫模型 -- 语料库
HanLP — HMM隐马尔可夫模型 -- 语料库
41 0
|
4月前
|
机器学习/深度学习 数据采集 自然语言处理
Python基于词袋模型特征和TFIDF特征进行支持向量机模型中文邮件分类项目实战
Python基于词袋模型特征和TFIDF特征进行支持向量机模型中文邮件分类项目实战
|
6月前
|
机器学习/深度学习 自然语言处理 算法
【Python自然语言处理】概率上下文无关文法(PCFG)及神经网络句法分析讲解(图文解释 超详细)
【Python自然语言处理】概率上下文无关文法(PCFG)及神经网络句法分析讲解(图文解释 超详细)
192 0
|
机器学习/深度学习 自然语言处理 搜索推荐
基于GCN和句法依存分析的情感分析
(1)构建/利用图结构 核心问题:针对某个特定任务构建一个图来使用潜在的信息。 因为有些任务中,图数据是给定的(如引用网络、社交网络、推荐系统的图数据等),但是有些图结构并不明显,所以需要转为一个图上可以解决的问题(如节点分类、链路预测等)。
577 0
基于GCN和句法依存分析的情感分析
|
机器学习/深度学习 Python
python CNN和词向量的句子相似性计算系统
python CNN和词向量的句子相似性计算系统
106 0
python CNN和词向量的句子相似性计算系统
|
机器学习/深度学习 自然语言处理 算法
【文本分类】基于改进TF-IDF特征的中文文本分类系统
【文本分类】基于改进TF-IDF特征的中文文本分类系统
250 0
【文本分类】基于改进TF-IDF特征的中文文本分类系统
|
机器学习/深度学习 自然语言处理
论文赏析[TACL18]隐式句法树模型真的能学到句子中有意义的结构吗?(二)
本文是一篇分析类论文,主要对近年来几种无监督句法分析模型(RL-SPINN和ST-Gumbel)进行了分析,得出了如下三个结论: 在句子分类任务上,只有一种模型效果好于传统的树结构模型。 这些模型随机性很大,初始化不同,结果也都差距很大。 这些模型产生的句法树的平均深度比PTB数据集的平均深度浅。
526 0
论文赏析[TACL18]隐式句法树模型真的能学到句子中有意义的结构吗?(二)
|
机器学习/深度学习 自然语言处理
论文赏析[TACL18]隐式句法树模型真的能学到句子中有意义的结构吗?(一)
本文是一篇分析类论文,主要对近年来几种无监督句法分析模型(RL-SPINN和ST-Gumbel)进行了分析,得出了如下三个结论: 在句子分类任务上,只有一种模型效果好于传统的树结构模型。 这些模型随机性很大,初始化不同,结果也都差距很大。 这些模型产生的句法树的平均深度比PTB数据集的平均深度浅。
146 0
论文赏析[TACL18]隐式句法树模型真的能学到句子中有意义的结构吗?(一)
|
自然语言处理
S-SimCSE:基于抽样子网络的句子嵌入对比学习
S-SimCSE:基于抽样子网络的句子嵌入对比学习
166 0
S-SimCSE:基于抽样子网络的句子嵌入对比学习