PCFG中inside和outside算法详解

简介: inside-outside算法是用来预测一棵句法分析树的概率的算法,算法建立在文法是乔姆斯基范式(CFG)的基础之上,CFG的定义见维基百科。一棵句法分析树的potential定义为它包含的产生式的potential乘积,在PCFG中表示概率,在CRF-CFG中表示特征集合的分数。

inside-outside算法需要定义两个变量:

  • image.png 定义为内部的potential之和,即以 A 为根结点,短语为 image.png 的所有可能的子树的potential之和。
  • image.png 定义为外部的potential之和,即以 A 为根结点,短语为 image.png 的所有可能的子结构的potential之和。

给定文法CFG,输入字符串image.png,计算inside和outside值。

inside


初始化:

如果  image.png,那么 image.png 。否则就等于0。

其中 image.png 为potential值。

类似于CKY算法,自底向上计算inside值:


outside


初始化:image.png

image.png ,其余都等于0。

outside值要分为两部分计算:

c628d96e1b1967a8342b2cd6c86687ff.jpg

第一部分是 image.png ,如上图所示。

e964e990f6c4b0947c5cfb9cff9b382c.jpg

第二部分是 image.png ,如上图所示。

和inside相反,通过自顶向下计算outside值:

image.png

应用


所有可能的句法树potential之和为:

image.png

包含产生式 image.png 的所有可能句法树potential之和是:

image.png

存在非终结符  ,且短语是 image.png 的所有可能句法树potential之和是:

image.png

PCFG参数估计


参数估计的目的就是为了估计出PCFG的概率 P ,使得所有句子的概率之和最大,采用的是EM迭代法。

首先定义:

image.png

这里 image.png 是随机初始化的,满足归一化条件就行。

对于语料库的每一条句子,可以计算出:

image.png

然后算出期望,更新概率,迭代就行了。

CRF-CFG参数估计


首先定义:

image.png

其中 image.png 为特征函数。

那么我们的目的就是训练特征参数 image.png

然后定义似然函数为

image.png

求偏导为

image.png

这里可能有人看不懂,似然函数和偏导是怎么来的呢?下面我详细写一下过程。

似然函数:

image.png

所以偏导为:

image.png


image.png

所以偏导就是这么来的。


相关文章
|
4月前
|
算法 数据挖掘
【博士每天一篇文献-算法】A pseudo-inverse decomposition-based self-organizing modular echo
本文提出了一种基于伪逆分解的自组织模块化回声状态网络(PDSM-ESN),通过增长-修剪方法和伪逆分解提高学习速度,有效解决了ESN中的不适定问题,并在多个数据集上展示了其优越的预测性能和鲁棒性。
27 1
|
Linux 开发工具 Android开发
[√]leak tracer的stack address始终无法被addr2line识别
[√]leak tracer的stack address始终无法被addr2line识别
151 0
|
算法 Java
回溯算法详解(Back Tracking)
回溯算法详解(Back Tracking)
200 0
|
存储 算法
PAT (Advanced Level) Practice 1046 Shortest Distance (20 分)
PAT (Advanced Level) Practice 1046 Shortest Distance (20 分)
93 0
PAT (Advanced Level) Practice 1046 Shortest Distance (20 分)
Circles Inside a Square(几何题)
题目描述 You have 8 circles of equal size and you want to pack them inside a square. You want to minimize the size of the square. The following figure illustrates the minimum way of packing 8 circles inside a square:
134 0
Circles Inside a Square(几何题)
|
算法
来聊聊最短路问题中的label-setting算法
来聊聊最短路问题中的label-setting算法
361 0
来聊聊最短路问题中的label-setting算法
⚡可行梯度方向法⚡(Feasible Gradient Direction Method ,FGDM)
⚡可行梯度方向法⚡(Feasible Gradient Direction Method ,FGDM)
⚡可行梯度方向法⚡(Feasible Gradient Direction Method ,FGDM)
PAT (Advanced Level) Practice - 1138 Postorder Traversal(25 分)
PAT (Advanced Level) Practice - 1138 Postorder Traversal(25 分)
104 0
High&NewTech:L&L / GCP BOOTH at CES 2019 - January 8-11, 2019 - Westgate Convention Center Las Vegas
High&NewTech:L&L / GCP BOOTH at CES 2019 - January 8-11, 2019 - Westgate Convention Center Las Vegas
High&NewTech:L&L / GCP BOOTH at CES 2019 - January 8-11, 2019 - Westgate Convention Center Las Vegas
Safe Area解析
Safe Area解析(一) —— Safe Area由来及简单使用(一)Safe Area解析(二) —— 你为什么并不safe?(一)
855 0