备案控制台

开发者社区人工智能文章正文

论文赏析[ACL18]直接到树：基于神经句法距离的成分句法分析（二）

2022-06-21 125

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 今天要讲的这篇论文发表在ACL18上面，一句话概括，本文就是将句法树序列化，通过预测序列进行句法分析。

训练

模型结构

下面的问题就是给出一个句子，如何学习出它的三元组呢？

首先将每个单词的词向量和tag向量拼接作为输入，然后送入一个Bi-LSTM，得到隐含层输出为

对于每个单词，可能存在一元结点，也可能不存在，不存在的话就标记为，用一个前馈神经网络和softmax预测每个单词的一元结点：

为了得到每个split的表示，对两两相邻单词进行卷积：

注意输出比输入少一个，因为split数量比单词少一个。

然后再将输出通过一层Bi-LSTM，得到最终的split表示：

当然这里也可以选择采用self-attention，详见我的上一篇博客。

最后将输出通过一个两层前馈神经网络，得到每个split的句法距离值：

每个内结点的label同样用一个前馈神经网络和softmax预测：

损失函数

对于训练样例，它的损失函数就是 d 和 c 的损失函数之和。

对于 c ，因为用的是softmax预测的，所以直接用交叉熵即可得到损失。

对于 d ，可以用均方误差：

然而我们并不在意句法距离的绝对值大小，我们只要它的相对大小是正确的即可，所以均方误差在这里不是很合适，可以换成如下损失函数：

最后总的损失函数为：

下面这张图形象的说明了模型的结构，由下往上，第一层圆圈是单词之间的LSTM，然后每个单词上面的五边形是前馈神经网络用来预测一元label，两个相邻单词之间的三角形是卷积，卷积得到的结果再通过一个LSTM得到split表示，最后每个split上面有两个五边形，一个是前馈神经网络用来预测label，另一个是前馈神经网络用来预测句法距离。

实验

在PTB数据集上的实验结果如下：

可以看出，结果还是很有竞争力的，虽然有很多比本文高的模型，但本文解释了，那是因为他们用了Char-LSTM，用了外部数据，用了半监督方法或者重排序方法。。。目前单模型最高的方法依然是上一篇博客讲的span-based模型。

最后值得一提的是模型的运行速度，之前理论分析时间复杂度非常低，而实际上运行速度的确快了许多，结果如下：

总结

本文最大的创新点就是应用句法距离进行句法分析，并且时间复杂度很低。至于文章题目为什么叫“Straight to the Tree”，文章最后说因为只通过一个最普通的LSTM和卷积就预测出了句法树，所以是很直接的。。。

本文的模型还比较粗糙，我觉得仍然有许多改进之处：

可以将LSTM替换为self-attention，因为之前博客讲到了，伯克利的self-attention编码器比LSTM编码器准确率高了1个多的百分点。
可以尝试最近新出的词向量模型ELMo，也许会有特别大的提升。
加入词级别的Char-LSTM，可能会有一定提升。
我觉得split的表示可以更加复杂化一点，而不仅仅是一层卷积+一层LSTM这么简单。

文章标签：

自然语言处理

机器学习/深度学习

算法码上来

目录

相关文章

算法码上来

|

自然语言处理并行计算算法

论文赏析[ACL18]直接到树：基于神经句法距离的成分句法分析(一）

今天要讲的这篇论文发表在ACL18上面，一句话概括，本文就是将句法树序列化，通过预测序列进行句法分析。

算法码上来

161 0 0

论文赏析[ACL18]直接到树：基于神经句法距离的成分句法分析(一）

算法码上来

|

机器学习/深度学习自然语言处理

论文赏析[ACL18]基于RNN和动态规划的线性时间成分句法分析（一）

好像已经很久没有看论文了呢，开学了一堆事情，以后还是要抽空阅读论文，保持一定的阅读量，并且不能光看最新的论文，还得去前人传统的方法中去寻找有没有能应用于深度学习的东西，说不定就发ACL了呢（手动滑稽）。论文地址：Linear-Time Constituency Parsing with RNNs and Dynamic Programming 代码地址：github

算法码上来

105 0 0

论文赏析[ACL18]基于RNN和动态规划的线性时间成分句法分析（一）

算法码上来

|

机器学习/深度学习

论文赏析[ACL18]基于RNN和动态规划的线性时间成分句法分析（二）

好像已经很久没有看论文了呢，开学了一堆事情，以后还是要抽空阅读论文，保持一定的阅读量，并且不能光看最新的论文，还得去前人传统的方法中去寻找有没有能应用于深度学习的东西，说不定就发ACL了呢（手动滑稽）。论文地址：Linear-Time Constituency Parsing with RNNs and Dynamic Programming 代码地址：github

算法码上来

105 0 0

论文赏析[ACL18]基于RNN和动态规划的线性时间成分句法分析（二）

算法码上来

|

机器学习/深度学习自然语言处理

论文赏析[ACL18]一个句子向量表示究竟可以塞进多少语言性质？

本文主要探究了不同encoder在不同任务上训练得到的句子向量表示，是否蕴含了各种语言性质。

算法码上来

157 0 0

论文赏析[ACL18]一个句子向量表示究竟可以塞进多少语言性质？

算法码上来

|

机器学习/深度学习

论文赏析[EMNLP18]用序列标注来进行成分句法分析（一）

本文定义了一种新的树的序列化方法，将树结构预测问题转化为了序列预测问题。该序列用相邻两个结点的公共祖先（CA）数量和最近公共祖先（LCA）的label来表示一棵树，并且证明了这个树到序列的映射是单射但不是满射的，但是提出了一系列方法来解决这个问题。

算法码上来

176 0 0

论文赏析[EMNLP18]用序列标注来进行成分句法分析（一）

算法码上来

论文赏析[EMNLP18]用序列标注来进行成分句法分析（二）

本文定义了一种新的树的序列化方法，将树结构预测问题转化为了序列预测问题。该序列用相邻两个结点的公共祖先（CA）数量和最近公共祖先（LCA）的label来表示一棵树，并且证明了这个树到序列的映射是单射但不是满射的，但是提出了一系列方法来解决这个问题。

算法码上来

138 0 0

论文赏析[EMNLP18]用序列标注来进行成分句法分析（二）

算法码上来

|

机器学习/深度学习自然语言处理算法

论文赏析[NAACL19]基于DIORA的无监督隐式句法树归纳（二）

今天要分享的这篇论文来自NAACL2019，主要利用inside-outside算法推理出给定句子的句法树，不需要任何的监督，也不需要下游任务作为目标函数，只需要masked语言模型就行了。

算法码上来

470 0 0

论文赏析[NAACL19]基于DIORA的无监督隐式句法树归纳（二）

算法码上来

|

自然语言处理算法

论文赏析[NAACL19]基于DIORA的无监督隐式句法树归纳(一）

今天要分享的这篇论文来自NAACL2019，主要利用inside-outside算法推理出给定句子的句法树，不需要任何的监督，也不需要下游任务作为目标函数，只需要masked语言模型就行了。

算法码上来

477 0 0

论文赏析[NAACL19]基于DIORA的无监督隐式句法树归纳(一）

算法码上来

|

机器学习/深度学习自然语言处理

论文赏析[TACL18]隐式句法树模型真的能学到句子中有意义的结构吗？(一）

本文是一篇分析类论文，主要对近年来几种无监督句法分析模型（RL-SPINN和ST-Gumbel）进行了分析，得出了如下三个结论：在句子分类任务上，只有一种模型效果好于传统的树结构模型。这些模型随机性很大，初始化不同，结果也都差距很大。这些模型产生的句法树的平均深度比PTB数据集的平均深度浅。

算法码上来

150 0 0

论文赏析[TACL18]隐式句法树模型真的能学到句子中有意义的结构吗？(一）

算法码上来

|

机器学习/深度学习自然语言处理

论文赏析[TACL18]隐式句法树模型真的能学到句子中有意义的结构吗？（二）

本文是一篇分析类论文，主要对近年来几种无监督句法分析模型（RL-SPINN和ST-Gumbel）进行了分析，得出了如下三个结论：在句子分类任务上，只有一种模型效果好于传统的树结构模型。这些模型随机性很大，初始化不同，结果也都差距很大。这些模型产生的句法树的平均深度比PTB数据集的平均深度浅。

算法码上来

538 0 0

论文赏析[TACL18]隐式句法树模型真的能学到句子中有意义的结构吗？（二）

热门文章

最新文章

【实战】锐捷AC+AP配置WLAN基本服务系列

丰富、连接、待集成—MaxCompute 生态再出发

Tomcat 7.0 64位免安装解压版安装及配置

securecrt克隆会话与sshd 的 MaxSessions

安卓支持RISC-V架构的技术剖析

生成文件的另一种思路——共享文件同步

高阶自定义View --- 粒子变幻、隧道散列、组合文字

奇虎团队不到1分钟攻破谷歌Pixel 斩获12万美元奖金

npm使用指南

Visual Studio 2010快捷键大全

Smolagents：三行代码就能开发 AI 智能体，Hugging Face 开源轻量级 Agent 构建库

Cognita：小白也能搭建 RAG 系统，提供交互界面的开源模块化 RAG 框架，支持多种文档检索技术

SocraticLM：通过 AI 提问引导学生主动思考，中科大与科大讯飞联合推出苏格拉底式教育大模型

SoulChat2.0：低成本构建 AI 心理咨询师，华南理工开源心理咨询师数字孪生大语言模型

TryOffAnyone：快速将模特服装图还原为平铺商品图，生成标准化的服装展示效果

VITRON：开源像素级视觉大模型，同时满足图像与视频理解、生成、分割和编辑等视觉任务

Memory Layers：如何在不增加算力成本的情况下扩大模型的参数容量？Meta 开源解决方法

ImBD：复旦联合华南理工推出 AI 内容检测模型，快速辨别文本内容是否为 AI 生成

《量子硬件制造：降低退相干率与错误率的策略》

《量子计算硬件：关键指标对人工智能应用性能的影响》

相关课程

更多

【医学搜索Query相关性判断】赛题及baseline解读

相关电子书

更多

概率图模型

深度学习论文实现：空间变换网络-第一部分

基于神经网络的语言合成

相关实验场景

更多

推荐系统入门之使用ALS算法实现打分预测

下一篇

阿里云无影云电脑免费试用，最长可试用3个月