论文赏析[EACL17]K-best Iterative Viterbi Parsing(K-best迭代维特比句法分析一)

简介: CKY算法或维特比inside算法是成分句法分析的主要方法之一,但是当产生式数量特别大之后,时间复杂度也线性增大。可行的一种方法是剪枝,但是剪枝会造成准确率的下降。所以本文就提出了一种迭代的维特比句法分析算法,通过剪枝去除掉没用的边。实验表明,时间上加快了一个数量级,但是本文并没有说准确率怎么样。。。本文用到的inside和outside算法之前已经介绍过了,详见PCFG中inside和outside算法详解。

介绍


CKY算法或维特比inside算法是成分句法分析的主要方法之一,但是当产生式数量特别大之后,时间复杂度也线性增大。可行的一种方法是剪枝,但是剪枝会造成准确率的下降。所以本文就提出了一种迭代的维特比句法分析算法,通过剪枝去除掉没用的边。实验表明,时间上加快了一个数量级,但是本文并没有说准确率怎么样。。。

本文用到的inside和outside算法之前已经介绍过了,详见PCFG中inside和outside算法详解。

算法框架


分层聚类


首先提出分层聚类的概念。

image.png

如上图所示,原来的类别标记有很多,将他们聚类成几个小类,再将这几个小类聚成更小的类,依次下去,最后类别标记会少很多很多。

image.png

以上图为例, image.png ,聚类之后的分析表为b图,原始的分析表为a图,聚类之后的表(下面叫粗表)b唯一对应了聚类之前的表(下面叫原始表)a,而反过来原始表a能对应多种不同的粗表b。

形式化定义


我们将类别分为 image.png 层,分别表示为 image.png ,那么第 m 层的类别集合 image.png 就是原始的类别集合,而 0 到 image.png 层的类别就称之为收缩符号

对于 image.png ,我们定义 image.png,其中image.png 就是 image.png的一个子集。该式将image.png 中的一个类别 image.png映射为了image.png 中所有聚类为 image.png 的类别集合。

举个例子吧,在第一张图中, image.png 。如果 image.png ,那么 image.png

那么对于 image.png ,我们定义产生式 image.png的概率为:

image.png

也就是说,粗表中的每一棵句法树都给出了它在原始表中的句法树的分数的上界,通俗说就是,如果把粗表中的收缩符号全部替换成原始表中的符号,那么新的句法树的分数一定会小于等于粗表中的句法树。

引理


如果粗表中的最优句法树 image.png 不包含任意收缩符号,那么它等价于原始表中的最优句法树。

证明:

令 Y 等于原始表中的句法树集合, image.png 等于没有出现在粗表中,但是出现在原始表中的句法树集合, image.png 等于粗表中的句法树集合。

那么对于每一个句法树 image.png ,都存在唯一的句法树 image.png 与之对应。所以可以推出:

image.png

这就意味着 image.png 也是原始表中的最优句法树。

相关文章
|
6月前
|
机器学习/深度学习 计算机视觉
【论文速递】CVPR2022 - 学习 什么不能分割:小样本分割的新视角
【论文速递】CVPR2022 - 学习 什么不能分割:小样本分割的新视角
|
6月前
|
自然语言处理 算法 索引
【Python自然语言处理】隐马尔可夫模型中维特比(Viterbi)算法解决商务选择问题实战(附源码 超详细必看)
【Python自然语言处理】隐马尔可夫模型中维特比(Viterbi)算法解决商务选择问题实战(附源码 超详细必看)
72 0
|
机器学习/深度学习 自然语言处理 算法
机器学习面试笔试知识点-贝叶斯网络(Bayesian Network) 、马尔科夫(Markov) 和主题模型(T M)2
机器学习面试笔试知识点-贝叶斯网络(Bayesian Network) 、马尔科夫(Markov) 和主题模型(T M)
66 0
|
机器学习/深度学习 人工智能 运维
NeurIPS 2022 Oral | 基于最优子集的神经集合函数学习方法EquiVSet
NeurIPS 2022 Oral | 基于最优子集的神经集合函数学习方法EquiVSet
|
机器学习/深度学习 存储 人工智能
7 Papers & Radios | Hinton前向-前向神经网络训练算法;科学家造出「虫洞」登Nature封面
7 Papers & Radios | Hinton前向-前向神经网络训练算法;科学家造出「虫洞」登Nature封面
126 0
|
机器学习/深度学习 计算机视觉
CycleGAN 论文泛读
CycleGAN 论文泛读
125 0
CycleGAN 论文泛读
|
算法
论文赏析[EACL17]K-best Iterative Viterbi Parsing(K-best迭代维特比句法分析二)
CKY算法或维特比inside算法是成分句法分析的主要方法之一,但是当产生式数量特别大之后,时间复杂度也线性增大。可行的一种方法是剪枝,但是剪枝会造成准确率的下降。所以本文就提出了一种迭代的维特比句法分析算法,通过剪枝去除掉没用的边。实验表明,时间上加快了一个数量级,但是本文并没有说准确率怎么样。。。 本文用到的inside和outside算法之前已经介绍过了,详见PCFG中inside和outside算法详解。
419 0
论文赏析[EACL17]K-best Iterative Viterbi Parsing(K-best迭代维特比句法分析二)
|
机器学习/深度学习 自然语言处理 算法
论文赏析[EMNLP19]如何在Transformer中融入句法树信息?这里给出了一种解决方案(二)
之前其实有很多工作将句法信息融入到了RNN中,例如ON-LSTM和PRPN,用来隐式建模句法结构信息,同时提升语言模型的准确率。本文尝试将句法信息融入到Transformer中,用来赋予attention更好的解释性。同时可以无监督的预测出句子的句法树,并且相比于一般的Transformer,语言模型的性能有所提高。
268 0
论文赏析[EMNLP19]如何在Transformer中融入句法树信息?这里给出了一种解决方案(二)
|
机器学习/深度学习 自然语言处理
论文赏析[EMNLP19]如何在Transformer中融入句法树信息?这里给出了一种解决方案(一)
之前其实有很多工作将句法信息融入到了RNN中,例如ON-LSTM和PRPN,用来隐式建模句法结构信息,同时提升语言模型的准确率。本文尝试将句法信息融入到Transformer中,用来赋予attention更好的解释性。同时可以无监督的预测出句子的句法树,并且相比于一般的Transformer,语言模型的性能有所提高。
182 0
论文赏析[EMNLP19]如何在Transformer中融入句法树信息?这里给出了一种解决方案(一)
论文赏析[EMNLP18]用序列标注来进行成分句法分析(二)
本文定义了一种新的树的序列化方法,将树结构预测问题转化为了序列预测问题。该序列用相邻两个结点的公共祖先(CA)数量和最近公共祖先(LCA)的label来表示一棵树,并且证明了这个树到序列的映射是单射但不是满射的,但是提出了一系列方法来解决这个问题。
132 0
论文赏析[EMNLP18]用序列标注来进行成分句法分析(二)
下一篇
无影云桌面