论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(二)

简介: 一般来说,自然语言是由词汇和句法组成的,但是标准的语言模型一般都只用RNN对词汇进行建模,句法信息都是隐式的学习到的,没有办法显式地拿出来使用。所以本文提出的语言模型的变体可以结合结构上的attention,在中间过程中学习到结构信息,然后这层结构信息可以拿来生成句法树,用来做无监督的句法分析。那么为什么要做无监督的句法分析呢?主要原因还是一些小语种标注语料太少了甚至没有,不能用监督句法分析来做。而且无监督句法分析学到的信息还可以用来增强语言模型或者更为下游的任务的性能,使它们能更好的融合句法结构信息。

模型


这里我不按照论文上的顺序讲,论文是倒序,变量定义都得看完整篇论文才出来,实在是看的太杂乱了。。。

Parsing Network


第1步: 首先第一步要预测出相邻两个单词的句法距离,用宽度为 image.png 的卷积核来对单词进行卷积。例如要预测 image.pngimage.png 的句法距离,那么就对 image.png 进行卷积(其实就是两层前馈神经网络),得到如下输出(注意原文中这一段里的词向量 e 应该都是 x ,并且这里原文中定义为 h 是和后面符号冲突的,有误):

image.png

当然了,第二行也可以看做是窗口大小为1的卷积核,第一个单词之前要补上 image.png 个0。

最后得到的句法距离反映出了相邻两个词之间的语义相关程度,如果距离比较大,说明两个词可能位于两个不同的短语中,否则就位于同一个短语。一个形象化的句法距离就是相邻两个单词的最近公共祖先的高度。

下面这个图就是一个例子,卷积核窗口宽度为2:

8828ad8c12353173c86e9318be6e979a.jpg

第2步: 然后就可以根据句法距离,求出 xt 最远到哪个位置有联系。用 image.png 来衡量 xt 与 xj 的分别与前一个单词的句法距离的差距:

image.png

这里的 image.png 就是当输入大于1或者小于-1时,截取掉,给它限制在-1到1这个范围内,所以最后 image.png 的范围就是0到1。可以看出,如果 image.png 很大,那么 dt 就大于 dj ,否则的话 dt 就小于 dj 。这也很合乎直观上的认知,如果 image.png 大于 image.png ,那么说明 xj 和 xt 的最近公共祖先的高度比较低,那么说明 xj 和 xt 在同一棵子树中,差值自然大,反之的话 xj 是当前子树的最左边的子结点,差值就很小。

所以模型只需要一步步往左寻找第一个 image.png 最接近0的点,也就是之前提到过的 image.png 。为了实现这个目标,可以定义 image.png 的概率为:

image.png

为什么这么设计呢?其实还是很有道理的。概率越大的话,说明 image.png 越小,而其他的 image.png 越大,这就印证了上面提出的观点。而如果取 image.png 的话, image.png 一定很小,会拉低概率;反之取 image.png 的话,会乘上一个很小的项 image.png ,也会拉低概率。所以取 image.png 就是最优的。

第3步: 我们的最终目的是求出门 image.png ,也就是 xt 与 xi 的相关度。在之前的动机中,直接将 image.png 之后的设为1,之前的设为0,但是这样是离散序列,无法传播梯度,所以这里采用另一种方法来求。注意到只有 image.png 接近于1,而其他的概率都接近于0,所以只需要用概率密度函数来作为 image.png 就行了:

image.png

注意到这个概率密度函数在 image.png 时值基本很小接近于0,而大于等于它时很大,越来越接近于1。这和设计的初衷已经很像了,所以可以近似用来作为 image.png

这里要提几点证明,可看可不看。

证明开始

首先这个概率 image.png 的形式其实是一个狄利克雷过程,有两个特殊值要定义一下,一个是 image.png 时,概率为:

image.png

还有就是当 image.png 时,因为 image.png 实际不存在,所以定义为句法距离无穷大,那么 image.png 定义为0,所以概率为:

image.png

然后可以求出 image.png 的期望(这里论文中又写的一塌糊涂,符号定义都不统一。。。):

image.png

进一步可以写为:

image.png

上面的求和裂项相消可以得到:

image.png

这里也可以验证出 image.png ,所以最终得到下面的门是正确的:

image.png

然后要证明的就是根据这个策略求出的两个单词的关联区间没有交叉(但是可以完全覆盖)。首先放宽一下条件,证明当 image.png 只取0或者1时,性质成立,也就是定义(这里原文又打错了。。。):

image.png

也就是在原来的定义中令 r 为正无穷。这样的话如果 image.png ,那么 image.png 就是1,否则就是0。放宽了条件之后, image.png 取值就只有1和0了,所以求出的 image.png 一定是满足句法距离 image.png 所有位置中最右边的一个。而对于所有的 image.png ,都满足 image.png 。证明也很简单,假设存在两个单词 image.pngimage.png ,其中 image.png ,它俩的关联区间交叉了,那么假设 image.pngimage.png 为 u ,而 xn 的 lt 为 m ,所以 image.png 。那么根据定义,有:

image.png

这两个式子显然矛盾,所以证明了在宽松的条件下,这个不交叉的性质是成立的。

另一个极端是令 image.png ,这种情况下 image.png ,最终算下来 image.png 是一个首项为 image.png 公比为2的等比数列。这里的话论文里说最终会形成一棵所有叶子结点都直接连接在根结点上面的句法树,但是我是没看出来为什么,首先这种情况下句法距离 d 对最终的损失函数没有影响了,所以梯度无法传播回来,句法距离 d 应该只受到词向量影响了,最终就是一个普通的语言模型,句法距离最终会是什么样子谁也不知道。

在具体实现时,将 image.png 设为一个中间值,但是这样会产生交叉的关联区间,所以测试的时候再将其设为正无穷。

证明结束

Reading Network


上面的Parsing Network求了半天就是为了得到这个gates image.png ,然后怎么使用呢?既然是语言模型,下面当然要用LSTM来对句子进行编码了。众所周知,在LSTM中有两个隐含层状态 h 和 c ,所以在这里不直接使用上一个时刻传过来的状态,而是用历史所有时刻的状态信息,再与gates加权后输入到下一时刻。在论文中并没有直接使用gates作为权重,而是计算了一个新的权重,这里称作结构化attention:

image.png

当然这还不是最终的权重,再通过加入gates,定义一个新的结构化intra-attention:

image.png

上面两个式子我也不是很清楚怎么解释,反正最后就用这个权重来对历史状态进行编码:

image.png

最后将加权求和后的隐含层状态作为下一个时刻的隐含层输入,得到新的隐含层表示。

Predict Network


最后就是预测下一个单词是什么了,这里并没有直接用当前时刻 t 的隐含层输出来预测,还是采用了下一个时刻输出对所有历史信息的attention,做加权求和,但是存在一个问题, image.png 的值依赖于 image.png ,也就是依赖于 image.png ,但是这是我们需要预测的,那怎么办呢?论文中就直接用另一套参数直接预测出一个临时的 image.png

image.png

这样就能估计出 image.pngimage.png 了。最后对历史状态加权求和,然后用一个前馈神经网络预测下一个单词:

image.png

其中 image.png 是对 image.png 对加权求和。

实验


具体实验设置啥的去看论文吧,这里就贴几个结果图解释一下。

331110af89bb2e18f8595a4633aec31b.jpg

上面这个是字符级别的语言模型的结果,PRPN取得了SOTA的结果。

cb89ce86d34d7797a68c9dd2ce6468d9.jpg

上面这个是词级别的语言模型的结果,除了那个用了4层LSTM和跨越连接的模型(参数多)外,PRPN效果是最好的。

当然我最关心的还是无监督成分句法分析上面的结果:

5d43f6a1fdc1c1eed361221dcabd6dcf.jpg

目前为止,无监督成分句法分析的标准做法还是用WSJ10数据集(也就是长度小于等于10的句子),然后用unlabeled F1评测。可以看到,PRPN效果只能说一般般,不是很好。

其实我也很疑惑,这里的无监督句法分析全靠Parsing Network产生的句法距离来产生,但是一个关键问题是句法距离并没有监督,唯一的监督信号来自于最后Predict Network的语言模型,那么这个句法距离真的能够学习到真实的句法距离吗?我比较怀疑,不过效果证明,这个对语言模型还是有帮助的,对无监督成分句法分析的话不好说。

总结


这篇论文几个review都给出了还算不错的评价,思想是不错的,但是和其中一个review观点一样,我觉得文章写得太烂了,一堆的笔误,逻辑很混乱,即使这已经是review后修改过的版本了,还是有一堆错误。

过两天再看一篇ICLR2019的还是这个组的PRPN的改进版本,看看到底有何改进。不过真要搞无监督句法分析的话,还是老老实实去做聚类吧。


相关文章
|
4月前
|
人工智能 算法 数据挖掘
语义熵识破LLM幻觉!牛津大学新研究登Nature
【7月更文挑战第22天】牛津大学研究者在Nature发布"使用语义熵检测大模型幻觉"。语义熵新方法有效识别大模型(LLMs)生成的不实或误导信息,通过聚类分析不同回答的语义等价性并计算概率,展示超越基线的幻觉检测能力,提升LLMs的可靠性。
144 7
|
6月前
|
测试技术 计算机视觉
斯坦福新研究提升大模型长视频理解能力
【2月更文挑战第29天】斯坦福大学研究团队开发的VideoAgent系统在长视频理解上取得突破,提升了大型语言模型处理视频内容的能力。该系统通过模拟人类认知过程,以高效(平均8.4帧)实现高准确率(54.1%和71.3%的零样本准确率),在EgoSchema和NExT-QA基准测试中超越现有最佳方法。VideoAgent借鉴人类观看视频的方式,迭代选择关键帧进行信息提取和推理,为长视频理解设定新标准。论文链接:[arxiv.org/pdf/2403.10517.pdf](https://arxiv.org/pdf/2403.10517.pdf)
224 1
斯坦福新研究提升大模型长视频理解能力
|
机器学习/深度学习 自然语言处理 自动驾驶
南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有
南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有
|
自然语言处理 数据挖掘 语音技术
INTERSPEECH 论文解读〡口语语言处理的音素与文本融合技术及区分式自训练技术
INTERSPEECH 是由国际语音通讯协会(International Speech Communication Association, ISCA)创办的语音信号处理领域顶级旗舰国际会议。历届 INTERSPEECH 会议都备受全球各地语音语言领域人士的广泛关注。 本文介绍我们在 INTERSPEECH 2021 发表的两篇论文工作:一种在预训练 (pre-training) 和微调 (fine-tuning) 中融合音素和文本信息的技术,提升下游 SLP 任务对于 ASR 错误的鲁棒性,以及一种区分式自训练技术 (discriminative self-training) ,减缓对于有
161 0
INTERSPEECH 论文解读〡口语语言处理的音素与文本融合技术及区分式自训练技术
【论文写作分析】之四《基于ALBERT-TextCNN模型的多标签医疗文本分类方法》
【论文写作分析】之四《基于ALBERT-TextCNN模型的多标签医疗文本分类方法》
221 0
【论文写作分析】之四《基于ALBERT-TextCNN模型的多标签医疗文本分类方法》
|
机器学习/深度学习 自然语言处理
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(一)
一般来说,自然语言是由词汇和句法组成的,但是标准的语言模型一般都只用RNN对词汇进行建模,句法信息都是隐式的学习到的,没有办法显式地拿出来使用。所以本文提出的语言模型的变体可以结合结构上的attention,在中间过程中学习到结构信息,然后这层结构信息可以拿来生成句法树,用来做无监督的句法分析。
191 0
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(一)
|
机器学习/深度学习 自然语言处理 数据挖掘
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(二)
一般来说,自然语言是由词汇和句法组成的,但是标准的语言模型一般都只用RNN对词汇进行建模,句法信息都是隐式的学习到的,没有办法显式地拿出来使用。所以本文提出的语言模型的变体可以结合结构上的attention,在中间过程中学习到结构信息,然后这层结构信息可以拿来生成句法树,用来做无监督的句法分析。
115 0
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(二)
|
机器学习/深度学习 自然语言处理
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(一)
一般来说,自然语言是由词汇和句法组成的,但是标准的语言模型一般都只用RNN对词汇进行建模,句法信息都是隐式的学习到的,没有办法显式地拿出来使用。所以本文提出的语言模型的变体可以结合结构上的attention,在中间过程中学习到结构信息,然后这层结构信息可以拿来生成句法树,用来做无监督的句法分析。
130 0
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(一)
|
机器学习/深度学习 算法
论文赏析[NAACL19]无监督循环神经网络文法 (URNNG)(一)
这篇是新鲜出炉的NAACL19的关于无监督循环神经网络文法(URNNG)的论文,在语言模型和无监督成分句法分析上都取得了非常不错的结果,主要采用了变分推理和RNNG。
242 0
论文赏析[NAACL19]无监督循环神经网络文法 (URNNG)(一)
|
机器学习/深度学习 算法 大数据
论文赏析[NAACL19]无监督循环神经网络文法 (URNNG)(二)
这篇是新鲜出炉的NAACL19的关于无监督循环神经网络文法(URNNG)的论文,在语言模型和无监督成分句法分析上都取得了非常不错的结果,主要采用了变分推理和RNNG。
469 0
论文赏析[NAACL19]无监督循环神经网络文法 (URNNG)(二)