论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(一)

简介: 一般来说,自然语言是由词汇和句法组成的,但是标准的语言模型一般都只用RNN对词汇进行建模,句法信息都是隐式的学习到的,没有办法显式地拿出来使用。所以本文提出的语言模型的变体可以结合结构上的attention,在中间过程中学习到结构信息,然后这层结构信息可以拿来生成句法树,用来做无监督的句法分析。

介绍


一般来说,自然语言是由词汇和句法组成的,但是标准的语言模型一般都只用RNN对词汇进行建模,句法信息都是隐式的学习到的,没有办法显式地拿出来使用。所以本文提出的语言模型的变体可以结合结构上的attention,在中间过程中学习到结构信息,然后这层结构信息可以拿来生成句法树,用来做无监督的句法分析。

那么为什么要做无监督的句法分析呢?主要原因还是一些小语种标注语料太少了甚至没有,不能用监督句法分析来做。而且无监督句法分析学到的信息还可以用来增强语言模型或者更为下游的任务的性能,使它们能更好的融合句法结构信息。

本文提出的模型(PRPN)主要有如下三个组成部分:

  • 可微分的Parsing Network 主要用来学习句子的句法距离(syntactic distance),这个在之前的博客中有讲到,是同一个组做的工作,链接:Straight to the Tree:Constituency Parsing with Neural Syntactic Distance 然后产生出门函数(gate function),也就是句子中每个词的权重,这样跑RNN的时候就没有必要考虑之前的所有信息了,只需要考虑句法距离最近的,也就是同一个短语中的信息。这里可微分后面会详细讲到,也就是不能直接预测离散的序列,不然梯度没办法反向传播,所以预测的是一个分布。
  • Reading Network。这个部分就和普通的RNN差不多,区别就是利用了上面的attention,然后每个时刻的输入不仅仅是上一个时刻的隐含层状态,还包括了历史所有相关的隐含层状态。
  • Predict Network。最后预测下一个词也不是直接采用当前时刻的隐含层输出,而是采用所有attention后的历史隐含层信息。

最后模型训练好之后,用Parsing Network学习到的句法距离就可以产生出无监督的句法树,当然这里只能产生unlabeled的句法树,也就是说,无监督的成分句法分析都是只评测unlabeled F1值,因为nonterminal信息实在是无法无监督的预测出来,除非结合外部标注器或者人工制定规则?

由于我觉得这篇论文写作有点粗糙,很多地方写的很乱,甚至还有公式变量和图片不对应,所以下面的公式我有些自行修改过了,如果觉得有疑问的,可以参考原文,并且告诉我。

动机


下图是一个输入句子及其对应的句法树示例:

ccb649a204e5e32275f488cc741a4b69.jpg

其中实线表示成分句法树的结构,而虚线表示同一棵子树的若干个子结点之间的联系。我们用 image.png 表示输入句子,用 yi 表示句法树中的某一个结点,用 r 表示根结点。定义 yi 所表示的短语范围是 image.png ,例如在上图中 y1 表示的范围是 (2,6) ,所以有 image.pngimage.png

下图是模型的Reading Network和Predict Network大致框架:

1e38a9a93739b1dcde0490795e92ac5f.jpg

其中实线表示Reading Network中RNN每个时刻的输入依赖于之前的哪些时刻,虚线表示Predict Network中预测下一个词时需要考虑哪些时刻的隐含层输出(这里有个小错误,图中最上面一行函数参数从 m3 开始,但实际上虚线表明应该从 m2 开始)。

首先是Parsing Network。这种和之前状态的连接在这里被叫做“跨越连接”(skip connection),而具体和哪些状态连接,就要用到门 image.png ,表示当前处在 t 时刻,和之前的第 i 时刻有没有关联,有就是1,没有就是0。在这里先定义变量 image.pngimage.png 和之前最远到哪个位置的单词有关联,分成两种情况:如果 xt 不是某个子树最左边的叶子结点,那么 image.png 就定义为它的父结点的最左边那个叶子结点,也就是 image.png 最左边那个兄弟结点。比如上图中的 image.png ,因为它在子树中位于中间,所以 image.png ,也就是说它最远和 x3 有一定关联,而再往前的单词由于不在同一个短语里,关联就不大了。如果 xt 是某一个子树 yi 最左边的子结点,那么 image.png 就定义为 yi 最左边那个兄弟结点的最左边的叶子结点。比如上图中 image.png ,因为 x3 是 y3 的最左边的子结点,而 y2 是 y3 最左边的兄弟结点, x2 又是 y2 最左边的叶子结点,也就是说 x3 最远和之前的 y2 有关联,它们共同组成了更大的短语 y1 。(这里定义又不是很严谨,例如对于上面那个例子, x2 既是 y1 又是  的最左子结点,这种情况下不能按照 y2 来计算,因为它没有最左的兄弟结点!所以按照 y2 来算的话得到image.png

根据这个 image.png 就可以将 image.png 定义为:

image.png

但是因为这是离散的决策,没法传递梯度,所以之后会介绍用概率来替代这里的0和1。

然后是Reading Network。得到了gates之后,就可以修改RNN,用下面公式计算 t 时刻的隐含层状态:

image.png

具体是怎么使用这个gates的,后面再具体介绍,反正只要知道多考虑了很多个历史状态就行了,每个状态都有一个权重,表示考虑了多少。

最后就是Predict Network,用来预测下一个单词 image.png ,用到的是历史多个隐含层状态信息:

image.png

这里后面也会具体讲到。

相关文章
|
6月前
|
人工智能 算法 数据挖掘
语义熵识破LLM幻觉!牛津大学新研究登Nature
【7月更文挑战第22天】牛津大学研究者在Nature发布"使用语义熵检测大模型幻觉"。语义熵新方法有效识别大模型(LLMs)生成的不实或误导信息,通过聚类分析不同回答的语义等价性并计算概率,展示超越基线的幻觉检测能力,提升LLMs的可靠性。
192 7
|
自然语言处理 数据挖掘 语音技术
INTERSPEECH 论文解读〡口语语言处理的音素与文本融合技术及区分式自训练技术
INTERSPEECH 是由国际语音通讯协会(International Speech Communication Association, ISCA)创办的语音信号处理领域顶级旗舰国际会议。历届 INTERSPEECH 会议都备受全球各地语音语言领域人士的广泛关注。 本文介绍我们在 INTERSPEECH 2021 发表的两篇论文工作:一种在预训练 (pre-training) 和微调 (fine-tuning) 中融合音素和文本信息的技术,提升下游 SLP 任务对于 ASR 错误的鲁棒性,以及一种区分式自训练技术 (discriminative self-training) ,减缓对于有
173 0
INTERSPEECH 论文解读〡口语语言处理的音素与文本融合技术及区分式自训练技术
【论文写作分析】之四《基于ALBERT-TextCNN模型的多标签医疗文本分类方法》
【论文写作分析】之四《基于ALBERT-TextCNN模型的多标签医疗文本分类方法》
247 0
【论文写作分析】之四《基于ALBERT-TextCNN模型的多标签医疗文本分类方法》
|
机器学习/深度学习 自然语言处理 数据挖掘
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(二)
一般来说,自然语言是由词汇和句法组成的,但是标准的语言模型一般都只用RNN对词汇进行建模,句法信息都是隐式的学习到的,没有办法显式地拿出来使用。所以本文提出的语言模型的变体可以结合结构上的attention,在中间过程中学习到结构信息,然后这层结构信息可以拿来生成句法树,用来做无监督的句法分析。
125 0
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(二)
|
机器学习/深度学习 自然语言处理
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(一)
一般来说,自然语言是由词汇和句法组成的,但是标准的语言模型一般都只用RNN对词汇进行建模,句法信息都是隐式的学习到的,没有办法显式地拿出来使用。所以本文提出的语言模型的变体可以结合结构上的attention,在中间过程中学习到结构信息,然后这层结构信息可以拿来生成句法树,用来做无监督的句法分析。
198 0
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(一)
|
机器学习/深度学习 算法
论文赏析[NAACL19]无监督循环神经网络文法 (URNNG)(一)
这篇是新鲜出炉的NAACL19的关于无监督循环神经网络文法(URNNG)的论文,在语言模型和无监督成分句法分析上都取得了非常不错的结果,主要采用了变分推理和RNNG。
252 0
论文赏析[NAACL19]无监督循环神经网络文法 (URNNG)(一)
|
机器学习/深度学习 算法 大数据
论文赏析[NAACL19]无监督循环神经网络文法 (URNNG)(二)
这篇是新鲜出炉的NAACL19的关于无监督循环神经网络文法(URNNG)的论文,在语言模型和无监督成分句法分析上都取得了非常不错的结果,主要采用了变分推理和RNNG。
481 0
论文赏析[NAACL19]无监督循环神经网络文法 (URNNG)(二)
|
机器学习/深度学习 自然语言处理 数据挖掘
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(二)
一般来说,自然语言是由词汇和句法组成的,但是标准的语言模型一般都只用RNN对词汇进行建模,句法信息都是隐式的学习到的,没有办法显式地拿出来使用。所以本文提出的语言模型的变体可以结合结构上的attention,在中间过程中学习到结构信息,然后这层结构信息可以拿来生成句法树,用来做无监督的句法分析。 那么为什么要做无监督的句法分析呢?主要原因还是一些小语种标注语料太少了甚至没有,不能用监督句法分析来做。而且无监督句法分析学到的信息还可以用来增强语言模型或者更为下游的任务的性能,使它们能更好的融合句法结构信息。
212 0
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(二)
|
自然语言处理 算法
论文赏析[NAACL19]基于DIORA的无监督隐式句法树归纳(一)
今天要分享的这篇论文来自NAACL2019,主要利用inside-outside算法推理出给定句子的句法树,不需要任何的监督,也不需要下游任务作为目标函数,只需要masked语言模型就行了。
477 0
论文赏析[NAACL19]基于DIORA的无监督隐式句法树归纳(一)
|
机器学习/深度学习 自然语言处理 算法
论文赏析[NAACL19]基于DIORA的无监督隐式句法树归纳(二)
今天要分享的这篇论文来自NAACL2019,主要利用inside-outside算法推理出给定句子的句法树,不需要任何的监督,也不需要下游任务作为目标函数,只需要masked语言模型就行了。
470 0
论文赏析[NAACL19]基于DIORA的无监督隐式句法树归纳(二)