论文赏析【EMNLP19】语言模型效果不好?也许你可以给它添加一点句法信息

简介: 本文介绍了如何将一个句法分析器融入到神经网络语言模型中,这样在利用了句法信息增强语言模型效果的同时,还可以去掉句法上的监督信号,用来无监督地生成句法树。

论文地址


PaLM: A Hybrid Parser and Language Model[1]

介绍


本文介绍了如何将一个句法分析器融入到神经网络语言模型中,这样在利用了句法信息增强语言模型效果的同时,还可以去掉句法上的监督信号,用来无监督地生成句法树。

其实将句法信息加入到语言模型中地思想之前就有了,比如PRPN(Shen et al.[2])和ON-LSTM(Shen et al.[3])。而本文提出了一种新的融入句法信息的方法,相比于之前的两个模型,主要有如下优点:

  • 更加符合直觉、更加轻巧,不需要很复杂的解码算法。
  • 在LSTM中加入的attention信息可以用句法信息来监督,可解释性更强,可以和语言模型联合训练。
  • 如果没有句法信息监督也不要紧,模型可以无监督预测出句法树。

模型


span attention

image.png

注意上面向量都省略了前向箭头!

下面就是计算所有 span 表示的算法伪代码:image.pngimage.png


image.png

image.png

下图就是一个简单的例子:image.png

实验


这是一篇短文,所以实验就很简单了。

首先是PTB上的语言模型困惑度:image.png

然后是WikiText2上的语言模型困惑度:image.png

两个实验都可以看出加了句法树监督的语言模型效果更好,而无监督隐式的语言模型效果也还可以。注意这里的AWD-LSTM指的是之前提出的一种LSTM变体(Merity et al.[5])。看得出来这些模型参数量其实没多大差别,而如果句法信息乱加监督(比如用右二叉树),效果反而会变差。

接着是无监督句法分析的效果:image.png

可以发现效果还是很差的,只比随机的二叉树好了那么一丢丢。比之前的 PRPN 差许多,和 DIROA 相比就更不用谈了(Drozdov et al.[6])。这也说明了对语言模型有用的句法信息可能并不符合 PTB 句法树结构。

最后还分析了左结合多还是右结合多:image.png

可以看出,基本全部都是右结合,也就是attention基本都聚焦在了 span 的最左边的单词。具体原因作者也不知道,留着未来探索。

后记


其实这篇短文和我 ACL 的工作挺像的,着实让我惊了一身冷汗(希望 ACL 能中,加油!)。

不过这篇还是有些小瑕疵的,比如最大考虑长度  ,这个值在语言模型的训练时用到了,但是分析无监督句法树的时候就去掉限制了,其实会影响无监督句法分析性能的。不过也不要紧,毕竟本文任务不是做句法分析。

再比如算 attention 是要对所有分数做归一化的,但是句法分析又采用了没有归一化的得分来解码,原因是因为一个右边界对应着多个左边界,所以不能用 attention 解码。但其实这个 attention 在做有监督句法信息的时候, gold 的就不是归一化的,也就是非 one-hot 的。总之这里做的挺粗糙的,也没有设计的很优雅。

参考资料


[1]

PaLM: A Hybrid Parser and Language Model: http://arxiv.org/abs/1909.02134

[2]

Neural Language Modeling by Jointly Learning Syntax and Lexicon: http://arxiv.org/abs/1711.02013

[3]

Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks: http://arxiv.org/abs/1810.09536

[4]

Rational Recurrences: https://arxiv.org/abs/1808.09357

[5]

Regularizing and Optimizing LSTM Language Models: https://arxiv.org/abs/1708.02182

[6]

Unsupervised Latent Tree Induction with Deep Inside-Outside Recursive Autoencoders: http://arxiv.org/abs/1904.02142

image.png

作者简介:godweiyang知乎同名华东师范大学计算机系硕士在读,方向自然语言处理与深度学习喜欢与人分享技术与知识,期待与你的进一步交流~


相关文章
|
5月前
|
自然语言处理 数据挖掘
必知的技术知识:EMNLP2021基于Prompt的方面级情感分析研究【转载以学习、回忆】
必知的技术知识:EMNLP2021基于Prompt的方面级情感分析研究【转载以学习、回忆】
24 0
|
6月前
|
人工智能 自然语言处理 安全
ChatGPT 之言情作家:第十二章到第十九章
ChatGPT 之言情作家:第十二章到第十九章
57 0
|
机器学习/深度学习 自然语言处理 算法
论文赏析【EMNLP19】语言模型效果不好?也许你可以给它添加一点句法信息
论文赏析【EMNLP19】语言模型效果不好?也许你可以给它添加一点句法信息
|
人工智能 安全 机器人
研究者意外发现DALL-E 2在用自创语言生成图像:全文黑话,人类都看不懂
研究者意外发现DALL-E 2在用自创语言生成图像:全文黑话,人类都看不懂
132 0
|
机器学习/深度学习 监控 自动驾驶
差点被ECCV错过的Oral论文:视频理解新框架,仅用微调的「成本」,达到预训练的「全能」
差点被ECCV错过的Oral论文:视频理解新框架,仅用微调的「成本」,达到预训练的「全能」
148 0
|
编解码 定位技术 计算机视觉
新的换脸模型FaceShifter论文的简单而完整的解释(一)
新的换脸模型FaceShifter论文的简单而完整的解释(一)
266 0
新的换脸模型FaceShifter论文的简单而完整的解释(一)
|
编解码
新的换脸模型FaceShifter论文的简单而完整的解释(二)
新的换脸模型FaceShifter论文的简单而完整的解释(二)
432 0
新的换脸模型FaceShifter论文的简单而完整的解释(二)
|
机器学习/深度学习 算法 数据挖掘
【一文读懂Hinton最新论文】胶囊网络9大优势4大缺陷(视频+PPT)
10月26日,深度学习元老Geoffrey Hinton和他的团队NIPS2017 Capsule论文《Dynamic Routing Between Capsules》在arxiv上发表,介绍了全新的胶囊网络模型,以及相应的囊间动态路由算法。
4798 0
|
机器学习/深度学习 自然语言处理 算法
论文赏析[EMNLP19]如何在Transformer中融入句法树信息?这里给出了一种解决方案(二)
之前其实有很多工作将句法信息融入到了RNN中,例如ON-LSTM和PRPN,用来隐式建模句法结构信息,同时提升语言模型的准确率。本文尝试将句法信息融入到Transformer中,用来赋予attention更好的解释性。同时可以无监督的预测出句子的句法树,并且相比于一般的Transformer,语言模型的性能有所提高。
271 0
论文赏析[EMNLP19]如何在Transformer中融入句法树信息?这里给出了一种解决方案(二)
|
机器学习/深度学习 自然语言处理
论文赏析[EMNLP19]如何在Transformer中融入句法树信息?这里给出了一种解决方案(一)
之前其实有很多工作将句法信息融入到了RNN中,例如ON-LSTM和PRPN,用来隐式建模句法结构信息,同时提升语言模型的准确率。本文尝试将句法信息融入到Transformer中,用来赋予attention更好的解释性。同时可以无监督的预测出句子的句法树,并且相比于一般的Transformer,语言模型的性能有所提高。
182 0
论文赏析[EMNLP19]如何在Transformer中融入句法树信息?这里给出了一种解决方案(一)