PCFG中inside和outside算法详解

简介: inside-outside算法是用来预测一棵句法分析树的概率的算法,算法建立在文法是乔姆斯基范式(CFG)的基础之上,CFG的定义见维基百科。一棵句法分析树的potential定义为它包含的产生式的potential乘积,在PCFG中表示概率,在CRF-CFG中表示特征集合的分数。

inside-outside算法需要定义两个变量:

  • image.png 定义为内部的potential之和,即以 A 为根结点,短语为 image.png 的所有可能的子树的potential之和。
  • image.png 定义为外部的potential之和,即以 A 为根结点,短语为 image.png 的所有可能的子结构的potential之和。

给定文法CFG,输入字符串image.png,计算inside和outside值。

inside


初始化:

如果  image.png,那么 image.png 。否则就等于0。

其中 image.png 为potential值。

类似于CKY算法,自底向上计算inside值:


outside


初始化:image.png

image.png ,其余都等于0。

outside值要分为两部分计算:

c628d96e1b1967a8342b2cd6c86687ff.jpg

第一部分是 image.png ,如上图所示。

e964e990f6c4b0947c5cfb9cff9b382c.jpg

第二部分是 image.png ,如上图所示。

和inside相反,通过自顶向下计算outside值:

image.png

应用


所有可能的句法树potential之和为:

image.png

包含产生式 image.png 的所有可能句法树potential之和是:

image.png

存在非终结符  ,且短语是 image.png 的所有可能句法树potential之和是:

image.png

PCFG参数估计


参数估计的目的就是为了估计出PCFG的概率 P ,使得所有句子的概率之和最大,采用的是EM迭代法。

首先定义:

image.png

这里 image.png 是随机初始化的,满足归一化条件就行。

对于语料库的每一条句子,可以计算出:

image.png

然后算出期望,更新概率,迭代就行了。

CRF-CFG参数估计


首先定义:

image.png

其中 image.png 为特征函数。

那么我们的目的就是训练特征参数 image.png

然后定义似然函数为

image.png

求偏导为

image.png

这里可能有人看不懂,似然函数和偏导是怎么来的呢?下面我详细写一下过程。

似然函数:

image.png

所以偏导为:

image.png


image.png

所以偏导就是这么来的。


相关文章
|
9天前
|
机器学习/深度学习 测试技术
文献解读-DNAscope: High accuracy small variant calling using machine learning
在这项研究中,研究组证明了DNAscope在不同样本和不同覆盖度水平下都能达到比DNAseq更高的准确性。使用GA4GH分层区域进行的分层分析,能够确认DNAscope在大多数分层区域中都具有高准确性,并突显了DNAscope在插入缺失(indels)和包含变异检测较困难的基因组区域的分层中具有更高的准确性。DNAscope结合了GATK's HaplotypeCaller中使用的成熟数学和统计模型,以及用于变异基因型分析的机器学习方法,在保持计算效率的同时实现了卓越的准确性。
18 3
|
3月前
|
机器学习/深度学习 算法
【文献学习】Channel Estimation Method Based on Transformer in High Dynamic Environment
一种基于CNN和Transformer的信道估计方法,用于在高度动态环境中跟踪信道变化特征,并通过实验结果展示了其相比传统方法的性能提升。
57 0
|
6月前
|
网络协议 算法 数据库
HCNP笔记-OSPF基础(Open Shortest Path First)
HCNP笔记-OSPF基础(Open Shortest Path First)
46 0
|
人工智能 编解码 自动驾驶
YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors
YOLOv7在5 FPS到160 FPS的范围内,在速度和精度方面都超过了所有已知的物体检测器,在GPU V100上以30 FPS或更高的速度在所有已知的实时物体检测器中具有最高的精度56.8% AP。
462 0
《The Six Sense of Auto-driving Car —— Road to Autonomous Driving》电子版地址
The Six Sense of Auto-driving Car —— Road to Autonomous Driving
68 0
《The Six Sense of Auto-driving Car —— Road to Autonomous Driving》电子版地址
|
自然语言处理
Re24:读论文 IOT-Match Explainable Legal Case Matching via Inverse Optimal Transport-based Rationale Ext
Re24:读论文 IOT-Match Explainable Legal Case Matching via Inverse Optimal Transport-based Rationale Ext
Re24:读论文 IOT-Match Explainable Legal Case Matching via Inverse Optimal Transport-based Rationale Ext
|
存储 算法
PAT (Advanced Level) Practice 1046 Shortest Distance (20 分)
PAT (Advanced Level) Practice 1046 Shortest Distance (20 分)
91 0
PAT (Advanced Level) Practice 1046 Shortest Distance (20 分)
Circles Inside a Square(几何题)
题目描述 You have 8 circles of equal size and you want to pack them inside a square. You want to minimize the size of the square. The following figure illustrates the minimum way of packing 8 circles inside a square:
126 0
Circles Inside a Square(几何题)
|
Python
“cosine_distance“ “KMeansClusterer“ is not defined
“cosine_distance“ “KMeansClusterer“ is not defined
113 0