论文赏析[NAACL19]无监督循环神经网络文法 (URNNG)(二)

简介: 这篇是新鲜出炉的NAACL19的关于无监督循环神经网络文法(URNNG)的论文,在语言模型和无监督成分句法分析上都取得了非常不错的结果,主要采用了变分推理和RNNG。

Generative Model image.png

上面的推理网络采样出了若干个句法树 z ,生成网络的目的就是计算它的联合概率 image.png 。这个其实不难,在之前的RNNG论文笔记中,我已经大致讲过了,可以去复习一下:

Recurrent Neural Network Grammarsgodweiyang.comimage.png

这里稍稍做了一些改进。

首先需要定义一个栈用来存放转移的历史状态,这里定义栈里放的元素为二元组 image.png ,一个是stack-LSTM编码的输出,一个是子树的结构表示。首先需要预测下一步的action是什么,所以取出栈顶的元素 image.png ,预测action的时候只要用到隐含层输出:

image.png

然后根据这个概率预测action是SHIFT还是REDUCE,下面分两种情况讨论。

如果是SHIFT,那么因为是生成模型,所以需要预测下一个移进的单词是什么:

image.png

然后将单词 x 的词向量输入到stack-LSTM中得到下一个时刻的隐含层输出:

image.png

最后将 image.png 推进栈里。

如果是REDUCE,那么首先需要取出栈顶的两个元素  image.png,然后用TreeLSTM计算出两个子结点合并后的子树的表示:

image.png

接着还是计算stack-LSTM下一个时刻的隐含层输出:

image.png

最后将 image.png 推进栈里。

为了防止数值溢出,常规上我们计算联合概率的对数:

image.png

从这个式子可以看出,联合概率定义为所有给定某段单词和action预测下一个单词和给定某段单词和action预测下一个action的概率之积。

如果是监督任务比如RNNG,那么只需要最大化这个联合概率就足够了,但是现在要做无监督,没有 z ,注意别搞混了,推理网络采样出的 z 可不能用来监督哦,因为那本来就不是正确的,所以接下来要采用语言模型来作为最终的目标函数。

Variational Inference

句子 x 的对数概率定义为:

image.png

其中 image.png 是所有合法句法树的集合,但是这里不可能穷举所有的句法树,所以就要用到变分推理,具体的理论知识不仔细介绍了,可以去查阅变分推理相关知识,下面直接推导。

image.png

其中最后一行叫做先验 image.png 的证据下界(ELBO),要想最大化先验,可以最大化这个ELBO,如果我们对这个ELBO变化一下形式可以得到:

image.png

所以这个ELBO和先验就相差了一个KL散度,最大化ELBO的话等价于最小化KL散度,也就是使推理网络产生句法树的概率分布和生成模型尽量接近。

但是这个ELBO还是不好算,尽管它把 image.png 移到了求和符号也就是期望里面,所以转换一下形式:

image.png

因为模型一共有两组参数,一个是推理网络的参数 image.png ,一个是生成网络的参数 image.png ,所以下面分别对两个参数求导。

首先对 image.png 求偏导,因为只有第一项有这个参数,所以偏导为:

image.png

这个偏导可以按照概率 image.png 采样得到:

image.png

然后对 image.png 求偏导,因为有两项含有这个参数,分别求偏导。第二项是熵,它的值其实可以用之前的 image.png 数组算出来,算法如下:

image.png

然后偏导可以交给深度学习库的自动微分,就不用你自己求啦。

至于第一项的偏导可以用类似于策略梯度的方法解决:

image.png

这里最后也是转化为了采样,和策略梯度做法类似,这里加入baseline来提升性能:

image.png

其中 image.png 定义为所有其他的对数联合概率的均值:

image.png

至此所有偏导都已求出来了,两个通过采样得到,一个通过inside算法结果自动微分得到,所以去掉导数符号并相加就得到了最终的损失函数:

image.png

一定要注意,这里的 image.png 在代码实现的时候不能传入梯度,不然的话对 image.png 的偏导就会多出这一项的偏导了!

实验


实验结果这里就不多说了,细节具体看论文吧,就贴两个结果,一个是语言模型:

image.png

可以看出在标准的PTB数据集上,URNNG效果只比监督学习的RNNG和用URNNG损失函数微调后的RNNG效果略差一点,但是在大数据集上,URNNG的优势就体现出来了。

另一个是无监督成分句法分析,这里是用的全部长度的测试集:

image.png

这个任务上URNNG效果是最好的。

结论


和之前两篇语言模型做无监督成分句法分析类似,这篇论文用推理网络学习句法树的概率分布并采样句法树,再用生成网络计算这些句法树和句子的联合概率,最后用变分推理最大化句子的概率,也就是学习出一个好的语言模型。

这篇论文的工作还是挺令人惊叹的,融合了inside算法、RNNG、变分推理等等知识。本来我变分推理听老师讲了好几次了都云里雾里的,看了这篇论文后总算弄懂了一点了,不过所了解的还是很少,EM算法、VAE之类的高级境界根本不会。。。


相关文章
|
4月前
|
机器学习/深度学习 人工智能
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念对齐人类
【10月更文挑战第18天】这篇论文提出了一种名为AligNet的框架,旨在通过将人类知识注入神经网络来解决其与人类认知的不匹配问题。AligNet通过训练教师模型模仿人类判断,并将人类化的结构和知识转移至预训练的视觉模型中,从而提高模型在多种任务上的泛化能力和稳健性。实验结果表明,人类对齐的模型在相似性任务和出分布情况下表现更佳。
100 3
|
26天前
|
机器学习/深度学习 人工智能 搜索推荐
PaSa:字节跳动开源学术论文检索智能体,自动调用搜索引擎、浏览相关论文并追踪引文网络
PaSa 是字节跳动推出的基于强化学习的学术论文检索智能体,能够自动调用搜索引擎、阅读论文并追踪引文网络,帮助用户快速获取精准的学术文献。
192 15
|
1月前
|
负载均衡 芯片 异构计算
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
NSDI‘24于4月16-18日在美国圣塔克拉拉市举办,阿里云飞天洛神云网络首次中稿NSDI,两篇论文入选。其中《LuoShen: A Hyper-Converged Programmable Gateway for Multi-Tenant Multi-Service Edge Clouds》提出超融合网关LuoShen,基于Tofino、FPGA和CPU的新型硬件形态,将公有云VPC设施部署到边缘机柜中,实现小型化、低成本和高性能。该方案使成本降低75%,空间占用减少87%,并提供1.2Tbps吞吐量,展示了强大的技术竞争力。
|
1月前
|
SQL Cloud Native API
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI‘24于4月16-18日在美国加州圣塔克拉拉市举办,汇聚全球网络系统领域的专家。阿里云飞天洛神云网络的两篇论文入选,标志着其创新能力获广泛认可。其中,《Poseidon: A Consolidated Virtual Network Controller that Manages Millions of Tenants via Config Tree》介绍了波塞冬平台,该平台通过统一控制器架构、高性能配置计算引擎等技术,实现了对超大规模租户和设备的高效管理,显著提升了云网络性能与弹性。实验结果显示,波塞冬在启用EIP时的完成时间比Top 5厂商分别快1.8至55倍和2.6至4.8倍。
|
4月前
|
机器学习/深度学习 Web App开发 人工智能
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》这篇论文提出了一种基于YOLOv3-Tiny的轻量级目标检测模型Micro-YOLO,通过渐进式通道剪枝和轻量级卷积层,显著减少了参数数量和计算成本,同时保持了较高的检测性能。
69 2
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
|
4月前
|
机器学习/深度学习 编解码 算法
轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
MobileNetV3是谷歌为移动设备优化的神经网络模型,通过神经架构搜索和新设计计算块提升效率和精度。它引入了h-swish激活函数和高效的分割解码器LR-ASPP,实现了移动端分类、检测和分割的最新SOTA成果。大模型在ImageNet分类上比MobileNetV2更准确,延迟降低20%;小模型准确度提升,延迟相当。
120 1
轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
|
4月前
|
编解码 人工智能 文件存储
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
YOLOv7是一种新的实时目标检测器,通过引入可训练的免费技术包和优化的网络架构,显著提高了检测精度,同时减少了参数和计算量。该研究还提出了新的模型重参数化和标签分配策略,有效提升了模型性能。实验结果显示,YOLOv7在速度和准确性上超越了其他目标检测器。
92 0
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
|
6月前
|
机器学习/深度学习 算法 网络架构
神经网络架构殊途同归?ICML 2024论文:模型不同,但学习内容相同
【8月更文挑战第3天】《神经语言模型的缩放定律》由OpenAI研究人员完成并在ICML 2024发表。研究揭示了模型性能与大小、数据集及计算资源间的幂律关系,表明增大任一资源均可预测地提升性能。此外,论文指出模型宽度与深度对性能影响较小,较大模型在更多数据上训练能更好泛化,且能高效利用计算资源。研究提供了训练策略建议,对于神经语言模型优化意义重大,但也存在局限性,需进一步探索。论文链接:[https://arxiv.org/abs/2001.08361]。
78 1
|
6月前
|
人工智能 算法 安全
【2023 年第十三届 MathorCup 高校数学建模挑战赛】C 题 电商物流网络包裹应急调运与结构优化问题 赛后总结之31页论文及代码
本文总结了2023年第十三届MathorCup高校数学建模挑战赛C题的解题过程,详细阐述了电商物流网络在面临突发事件时的包裹应急调运与结构优化问题,提出了基于时间序列预测、多目标优化、遗传算法和重要性评价模型的综合解决方案,并提供了相应的31页论文和代码实现。
108 0
|
2月前
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
86 17

热门文章

最新文章