论文赏析[NAACL19]无监督循环神经网络文法 (URNNG)(一)

简介: 这篇是新鲜出炉的NAACL19的关于无监督循环神经网络文法(URNNG)的论文,在语言模型和无监督成分句法分析上都取得了非常不错的结果,主要采用了变分推理和RNNG。

介绍


这篇是新鲜出炉的NAACL19的关于无监督循环神经网络文法(URNNG)的论文,在语言模型和无监督成分句法分析上都取得了非常不错的结果,主要采用了变分推理和RNNG。本文公式量较大,因此我也推了好久,算法也挺多的,首先上一张我推导的公式笔记:

image.png

我这篇博客就不按照论文的顺序来讲了,就按照我上面这张笔记讲一讲我的理解吧,很多细节可能会忽略,请参见原文吧。

首先对于无监督成分句法分析,常规做法就是学习一个生成模型 image.png ,就比如RNNG就是一个生成模型,但是缺少句法树 z 的监督信号怎么办呢?现在给你的输入只有句子 x ,那么只能用语言模型 image.png 来做监督了。习惯上我们喜欢取对数,也就是:

image.png

这里就存在几个问题,比如 z 的状态空间太大了,不可能穷举所有的,所以接下来按步骤讲解如何求解。

URNNG模型


先上一张模型图,让大家对整体模型有个大概的认知:

image.png

左边是一个推理网络(Inference Network),用来根据输入 x 推理出隐变量也就是句法树 z 的概率分布 image.png 。右边是一个生成模型(Generative Model),用来计算从推理网络中采样出来的句法树 z 的联合概率 image.png ,最后根据上面语言模型算出句子的概率,最大化这个概率即可。

接下来分别讲解这两个部分和具体的优化方法。

Inference Network image.png

首先将词向量 image.png 和位置向量 image.png 拼接,作为推理网络LSTM的输入:

image.png

然后算出span image.png 的得分,计算方式和以往一样,用BiLSTM前后向输出做差,然后通过一个前馈神经网络得到分数:

image.png

接下来就需要计算句法树的概率分布了,这里不直接计算句法树 z ,而是计算它的邻接矩阵 B 的概率分布,这个邻接矩阵意思就是如果span image.png 存在,那么 image.png ,否则的话 image.png 。然后就可以用CRF计算出邻接矩阵 B 对应的概率:

image.png

其中 image.png 是配分函数,也就是用来将概率归约到0到1之间的:

image.png

注意这里的 image.png 并不是所有的01矩阵集合,而是必须满足能产生合法句法树的矩阵,而这情况也很多,不能穷举求解,在这里采用经典的inside算法来求解这个配分函数:

image.png

不过我觉得这里是错的!就是这里的两处 image.png 应该改成 image.png 。不过具体代码实现的时候并没有这么做,初始值一样都是 image.png ,但是递推的时候采用了如下式子:

image.png

其实就是用 image.png 来取代 image.png 了,化简后就是代码实现这个式子,应该是为了防止数值溢出。

然后就是采样了,推理网络目的就是计算出句法树的概率分布,然后根据这个分布采样出若干个句法树,那么现在给定一棵句法树可以根据上面的算法计算出它的概率了,那怎么采样呢?其实还是可以通过刚刚计算得出的 image.png 数组来采样,采样算法如下:

image.png

其实就是自顶向下的根据概率分布来采样每个span的split,用一个队列来保存所有还没有采样出split的span,然后把所有采样出的span在邻接矩阵中的对应值标为1。

最后推理网络采样出了若干个句法树 z ,然后根据CRF计算出每个句法树的概率 image.png ,后面的事情就交给生成网络了。

相关文章
|
5月前
|
机器学习/深度学习 资源调度 算法框架/工具
AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
338 10
|
5月前
|
机器学习/深度学习 边缘计算 算法
SEENN: 迈向时间脉冲早退神经网络——论文阅读
SEENN提出一种时间脉冲早退神经网络,通过自适应调整每个样本的推理时间步数,有效平衡脉冲神经网络的准确率与计算效率。该方法基于置信度判断或强化学习策略,在保证高精度的同时显著降低能耗与延迟,适用于边缘计算与实时处理场景。
343 13
|
5月前
|
机器学习/深度学习 缓存 算法
2025年华为杯A题|通用神经网络处理器下的核内调度问题研究生数学建模|思路、代码、论文|持续更新中....
2025年华为杯A题|通用神经网络处理器下的核内调度问题研究生数学建模|思路、代码、论文|持续更新中....
555 1
|
9月前
|
人工智能 算法 异构计算
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
近日,阿里云基础网络技术5篇论文被NSDI 2025主会录用。研究涵盖大模型训练网络故障诊断、仿真、容器网络性能诊断、CDN流控算法智能选择及GPU解耦推理优化等领域。其中,《Evolution of Aegis》提出增强现有体系+训练过程感知的两阶段演进路线,显著降低故障诊断耗时;《SimAI》实现高精度大模型集群训练模拟;《Learning Production-Optimized Congestion Control Selection》通过AliCCS优化CDN拥塞控制;《Prism》设计全新GPU解耦推理方案;《ScalaCN》解决容器化RDMA场景性能问题。
492 7
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
|
9月前
|
canal 负载均衡 智能网卡
阿里云洛神云网络论文入选SIGCOMM'25主会,相关实习生岗位火热招聘中
阿里云飞天洛神云网络的两项核心技术Nezha和Hermes被SIGCOMM 2025主会录用。Nezha通过计算网络解耦实现vSwitch池化架构,大幅提升网络性能;Hermes则提出用户态引导I/O事件通知框架,优化L7负载均衡。这两项技术突破解决了云网络中的关键问题,展现了阿里云在网络领域的领先实力。
1536 2
|
11月前
|
前端开发 Java 关系型数据库
基于ssm的网络直播带货管理系统,附源码+数据库+论文
该项目为网络直播带货网站,包含管理员和用户两个角色。管理员可进行主页、个人中心、用户管理、商品分类与信息管理、系统及订单管理;用户可浏览主页、管理个人中心、收藏和订单。系统基于Java开发,采用B/S架构,前端使用Vue、JSP等技术,后端为SSM框架,数据库为MySQL。项目运行环境为Windows,支持JDK8、Tomcat8.5。提供演示视频和详细文档截图。
332 10
|
11月前
|
负载均衡 数据中心 芯片
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
384 0
|
5月前
|
机器学习/深度学习 算法 调度
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
474 0
|
5月前
|
机器学习/深度学习 传感器 算法
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
392 2

热门文章

最新文章