PCFG中inside和outside算法详解

简介: inside-outside算法是用来预测一棵句法分析树的概率的算法,算法建立在文法是乔姆斯基范式(CFG)的基础之上,CFG的定义见维基百科。一棵句法分析树的potential定义为它包含的产生式的potential乘积,在PCFG中表示概率,在CRF-CFG中表示特征集合的分数。

inside-outside算法需要定义两个变量:

  • image.png 定义为内部的potential之和,即以 A 为根结点,短语为 image.png 的所有可能的子树的potential之和。
  • image.png 定义为外部的potential之和,即以 A 为根结点,短语为 image.png 的所有可能的子结构的potential之和。

给定文法CFG,输入字符串image.png,计算inside和outside值。

inside


初始化:

如果  image.png,那么 image.png 。否则就等于0。

其中 image.png 为potential值。

类似于CKY算法,自底向上计算inside值:


outside


初始化:image.png

image.png ,其余都等于0。

outside值要分为两部分计算:

c628d96e1b1967a8342b2cd6c86687ff.jpg

第一部分是 image.png ,如上图所示。

e964e990f6c4b0947c5cfb9cff9b382c.jpg

第二部分是 image.png ,如上图所示。

和inside相反,通过自顶向下计算outside值:

image.png

应用


所有可能的句法树potential之和为:

image.png

包含产生式 image.png 的所有可能句法树potential之和是:

image.png

存在非终结符  ,且短语是 image.png 的所有可能句法树potential之和是:

image.png

PCFG参数估计


参数估计的目的就是为了估计出PCFG的概率 P ,使得所有句子的概率之和最大,采用的是EM迭代法。

首先定义:

image.png

这里 image.png 是随机初始化的,满足归一化条件就行。

对于语料库的每一条句子,可以计算出:

image.png

然后算出期望,更新概率,迭代就行了。

CRF-CFG参数估计


首先定义:

image.png

其中 image.png 为特征函数。

那么我们的目的就是训练特征参数 image.png

然后定义似然函数为

image.png

求偏导为

image.png

这里可能有人看不懂,似然函数和偏导是怎么来的呢?下面我详细写一下过程。

似然函数:

image.png

所以偏导为:

image.png


image.png

所以偏导就是这么来的。


相关文章
|
Shell Linux 计算机视觉
【Dlib】动作检测:以常见的人脸识别验证为例讲解张嘴与闭眼
【Dlib】动作检测:以常见的人脸识别验证为例讲解张嘴与闭眼
692 0
|
存储 Java 测试技术
JAVA-MAVEN初学者教程(配置、pom.xml、依赖管理等)
JAVA-MAVEN初学者教程(配置、pom.xml、依赖管理等)
2724 0
|
4月前
|
机器学习/深度学习 数据采集 人工智能
WebDancer:从零训练一个 DeepResearch 类智能体
WebDancer 是一款具备 Agentic 能力的智能体,能在开放网页环境中自主提问、搜索、推理并验证答案。它通过多步推理、信息整合与交叉验证解决复杂问题,如医学文献分析或政策追踪。WebDancer 采用 CRAWLQA 和 E2HQA 数据合成策略生成高质量训练数据,并结合 SFT(监督微调)+ RL(强化学习)双阶段训练方法,提升模型在动态环境中的适应性和泛化能力。其核心技术包括 ReAct 行为框架和 DAPO 强化学习算法,确保路径优化与策略稳定性。未来,WebDancer 将接入 Browser 工具链,拓展至代码沙盒、长文本写作等应用场景,进一步向通用智能体演进。
1195 27
|
Ubuntu Linux
编译内核遇到pahole不可用
编译内核遇到pahole不可用
|
人工智能 自然语言处理 测试技术
RoBERTa
“【5月更文挑战第30天】”
286 1
|
11月前
|
调度
用户态和内核态是如何切换的?
【10月更文挑战第28天】用户态和内核态的切换是通过系统调用指令、异常和中断等机制来实现的。这些机制确保了应用程序能够在需要时请求内核提供的服务,同时也保证了内核能够对系统资源进行有效的管理和保护,维护系统的稳定性和安全性。通过准确地保存和恢复上下文信息,实现了用户态和内核态之间的无缝切换,为计算机系统的正常运行提供了有力保障。
|
XML 安全 Java
【Maven】依赖管理,Maven仓库,Maven核心功能
【Maven】依赖管理,Maven仓库,Maven核心功能
1975 3
|
网络安全 数据安全/隐私保护
VSC通过 SSH 连接到远程服务器时,每次都需要输入密码
VSC通过 SSH 连接到远程服务器时,每次都需要输入密码
3119 0
|
人工智能 自然语言处理 API
利用Python调用KimiGPT API接口
Kimi作为国内目前广受欢迎的AI工具,因其出色的性能和智能功能,迅速赢得了大量用户的青睐。随着用户量的激增,系统在高峰时段可能会面临响应压力。正是借助这一热潮,Kimi团队适时推出了其API服务,使用户和开发者能够更加灵活和深入地集成和使用Kimi的智能功能。
|
安全 固态存储 Linux
服务器linux操作系统重装的完整流程-傻瓜式教学
服务器linux操作系统重装的完整流程-傻瓜式教学