上海科技大学屠可伟团队:小谈无监督依存句法解析

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: 联合训练可以分别帮助两个模型得到更好的效果,有趣的是生成式模型最终效果比判别式的好。同时我们也做了一些实验的分析,发现联合训练后两个模型确实可以相互取长补短,学到对方一些好的特性。

本文作者蒋勇为上海科技大学博士生,师从屠可伟博士。本文为蒋勇接受雷锋网AI科技评论独家约稿撰写的工作介绍,未经许可不得转载。

自然语言总有丰富的内部结构信息,而这些信息一般都是通过解析树(parse tree)来进行表示。一般而言,我们把从一个句子到句法树的这一过程称为句法解析(parsing)。

句法解析有很多种形式,最为常用的是基于短语的句法解析(constituency parsing)和依存句法解析(dependency parsing)。句法解析作为自然语言处理(NLP)的基础任务之一,可以帮助很多其它的任务,包括机器翻译(machine translation),句子分类(sentence classification)和语义角色标注(semantic role labeling)等。

可是,句法解析的标注数据通常很少而且解析树需要专业的语言学家来进行标注。因此,如何通过未标注数据来学习一个句法解析器就很重要。我们组这两年在无监督依存句法解析做了一些研究,分别在自然语言处理国际顶级会议EMNLP 2016和EMNLP 2017上有四篇相关工作。

无监督依存句法解析的研究历史

在2004年之前,无监督句法分析有一些研究工作,但是效果都不好(甚至超不过从左连到右(right-branching)和从右连向左(left-branching)这俩baseline)。

第一个取得突破性进展的是来自Stanford的NLP组。当时Dan Klein还在 Stanford跟随Chris Manning读博士,主要的研究方向就是无监督句法分析,其2004年在ACL发表的工作提出的Dependency Model with Valence (DMV)生成式模型首次超过了branching的baseline。Dan Klein天才式的直觉使得其在无监督句法解析上获得突破性进展,并在毕业后担任UC Berkeley的助理教授,领导Berkeley NLP Group。

DMV 模型提出后,有很多改进的工作。来自Johns Hopkins的Noah Smith当时正在跟Jason Eisner读博士,他对DMV的目标函数和学习方式做了一些改进,把英文句法解析的效果提高了近20个百分点。2006年他以杰出的工作在博士毕业后任职CMU的助理教授(现在在UW)。

Shay Cohen是Noah Smith在CMU指导的第一届博士生之一,他把Bayesian方法引入DMV模型的训练中,发表了一系列工作,毕业后在Michael Collins做了一段时间Post Doc然后加入University of Edinburgh任助理教授。

自Dan Klein毕业后,Stanford的Daniel Jurafsky组的Valentin I Spitkovsky继续从事这一方向的研究,提出了baby step learning,viterbi EM training等方法来训练DMV模型,因其提出的方法简单有效,后续有很多基于viterbi EM training的工作。

无监督句法解析任务设定

下图是传统句法解析的步骤,左图是原始句子,中图是词性标注后的结果,右图是解析出的句法树:

上海科技大学屠可伟团队:小谈无监督依存句法解析


因为无监督句法解析这个任务比较困难,我们一般用标注后的词性序列(POS Tag sequence)作为训练数据,而不是原始的句子。

生成式模型的训练

(一篇发表在EMNLP 2016上,一篇发表在EMNLP 2017上)

DMV是一个句子级别的生成模型,建模句子x和句法树y的联合概率分布P(x, y)。从根节点开始递归地生成句子中的词。下面是一个词性序列生成过程的例子:

上海科技大学屠可伟团队:小谈无监督依存句法解析


这个生成过程有10个采样步骤,每一步生成一个词或者做一个是否继续生成的决策。这里采样的概率在原始的DMV模型里是用一些表来建模,我们在EMNLP 2016提出使用神经网络来计算这些概率,同时,把离散的词,方向等通过embedding来表示。如下图所示,输入是词性,valence和方向,输出是规则的概率集合,我们把模型称为Neural DMV (NDMV)。

上海科技大学屠可伟团队:小谈无监督依存句法解析


在我们了解的范围内,这是第一次把神经网络用在无监督句法解析上。学习的过程也很简单:

上海科技大学屠可伟团队:小谈无监督依存句法解析


学习是期望最大化(EM)算法的变种,E步使用动态规划得到每个grammar rule的使用次数,M步分为两部分:

  • 第一部分是通过grammar rule的使用次数训练神经网络的参数;

  • 第二部分是通过神经网络预测grammar rule的概率,以此循环直至收敛。

下图是我们在PTB上的实验效果,可以发现我们在相同设定下取得了目前最好的效果:

上海科技大学屠可伟团队:小谈无监督依存句法解析


我们知道,大模型和大数据是深度学习成功的关键,因此我们也想在无监督句法解析上大模型和大数据的关系。我们对NDMV进行了拓展,引出词的信息,并在多种大小数据集上进行了实验,有了以下三个实验发现,发表在EMNLP 2017上:

下图是在传统DMV模型上的实验,我们发现在相同数据下随着degree of lexicalization的增加(模型变大),效果变差。但是随着训练数据的增加,效果有所提升。

上海科技大学屠可伟团队:小谈无监督依存句法解析


当我们用神经网络来smooth这个概率分布后,明显发现在少量数据下随着degree of lexicalization的增加效果下降的不那么严重了。

 上海科技大学屠可伟团队:小谈无监督依存句法解析


当我们使用更好的模型初始化方法(’expert’ initialization)时,我们发现随着数据集的增大和degree of lexicalization的提高,效果有了明显提升。

上海科技大学屠可伟团队:小谈无监督依存句法解析


下图是我们在WSJ10数据上的表现:可以看到,我们在WSJ10上取得目前最好的效果,在完整的WSJ数据上也表现的不错。


 上海科技大学屠可伟团队:小谈无监督依存句法解析

判别式模型的训练

(发表在EMNLP 2017上)

几乎所有之前的工作都是在生成式模型(如DMV)上做的,生成式模型有优点也有相应缺点,比如不能很好地建模上下文的信息。我们在这篇文章中提出了一种新的判别式模型来做无监督句法解析:条件随机场自编码器(CRF Autoencoder)。

下图是我们提出模型的一个例子。CRF Autoencoder包括两部分:encoder和decoder。Encoder是一个基于CRF的Discriminative模型,Decoder是一个基于词的bigram生成模型。模型的输入是词序列(用x来表示),隐藏层是输入词对应的父亲词序列(用y来表示),输出是重建的词序列(用上海科技大学屠可伟团队:小谈无监督依存句法解析来表示)。

上海科技大学屠可伟团队:小谈无监督依存句法解析


给定一系列未标注的数据样本,我们训练的目标函数是(带正则项的)重建概率:

上海科技大学屠可伟团队:小谈无监督依存句法解析


注意这里我们与原始CRF-Autoencoder的区别在于,我们是寻找条件联合概率最大的y而不是穷举所有可能的y。为了鼓励学习到的句法树符合一些语言知识,我们在这个目标函数上添加了一个软限制条件,最后的目标函数如下:

上海科技大学屠可伟团队:小谈无监督依存句法解析


这里的Q(x, y)是一个对(x, y)对进行打分的项。我们提出使用坐标下降法来优化这个目标函数:交替优化encoder的参数和decoder的参数。在优化encoder的参数时,我们跑两个epoch的随机梯度下降;在优化decoder时,我们跑两轮维特比EM算法。

我们在八个语言上进行了测试,下表是在英语上的结果:

上海科技大学屠可伟团队:小谈无监督依存句法解析


可以发现,我们的模型比2015年提出的另外一种判别式模型效果要好,跟目前最好的效果相当。 

生成式和判别式模型的联合训练

(发表在EMNLP 2017上)

通过以上的分析我们知道,生成式模型和判别式模型在无监督句法分析上具有各自的优势。在这一篇论文里,我们提出联合训练这两个模型。联合训练的目标函数是:

 上海科技大学屠可伟团队:小谈无监督依存句法解析 

这里的F和G分别代表两个模型,F是LC-DMV而G是Convex-MST。各自优化的目标函数是:

上海科技大学屠可伟团队:小谈无监督依存句法解析


我们提出利用坐标下降来优化这个目标函数:交替优化y和两个模型的参数。在优化y的时候,对于每一个句子我们需要进行解码(decoding),这里我们利用对偶分解算法来求解。整个学习过程如下所述:

上海科技大学屠可伟团队:小谈无监督依存句法解析


我们在30个语言上验证了我们的联合训练方法,最终效果如下所示:

上海科技大学屠可伟团队:小谈无监督依存句法解析


实验发现,联合训练可以分别帮助两个模型得到更好的效果,有趣的是生成式模型最终效果比判别式的好。同时我们也做了一些实验的分析,发现联合训练后两个模型确实可以相互取长补短,学到对方一些好的特性。

最后想介绍一下上海科技大学屠可伟老师研究组。我们的研究组主要从事自然语言处理、机器学习、知识表示等人工智能领域的研究,近两年在EMNLP、IJCAI、AAAI、ICCV等顶级会议上发表了十余篇论文,现招收硕士研究生和博士后,欢迎对自然语言处理和机器学习有兴趣的同学联系屠可伟老师。



本文作者:奕欣
本文转自雷锋网禁止二次转载, 原文链接
目录
相关文章
|
6天前
|
数据可视化 项目管理
个人和团队都好用的年度复盘工具:看板与KPT方法解析
本文带你了解高效方法KPT复盘法(Keep、Problem、Try),结合看板工具,帮助你理清头绪,快速完成年度复盘。
42 7
个人和团队都好用的年度复盘工具:看板与KPT方法解析
|
2月前
|
敏捷开发 数据可视化 项目管理
看板办团队协作工具能提高团队效率吗?深度解析
在快节奏的工作环境中,高效的团队协作与任务管理成为企业提升效率的关键。看板作为一种流行的工具,通过可视化管理任务进度,促进团队协作,提高透明度,帮助团队成员实时了解项目状态,确保任务不遗漏,支持远程办公与跨团队合作。
54 0
看板办团队协作工具能提高团队效率吗?深度解析
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
KDD 2024:港大黄超团队深度解析大模型在图机器学习领域的未知边界
【8月更文挑战第12天】在KDD 2024会议中,香港大学黄超团队深入探讨了大型语言模型在图机器学习的应用与前景。他们提出将LLMs与图神经网络结合可显著增强图任务性能,并归纳出四种融合模式,为领域发展提供新视角与未来路径。论文详细分析了现有方法的优势与局限,并展望了多模态数据处理等前沿课题。[论文](https://arxiv.org/abs/2405.08011)为图机器学习领域注入了新的活力。
241 61
|
4月前
|
监控 数据可视化 搜索推荐
万界星空科技商业开源MES系统全面解析
万界星空MES系统支持对生产现场的实时监控,包括设备运行状态、生产进度、质量数据等关键信息的即时反馈。通过可视化的数据展示,管理者能够直观掌握生产全貌,及时发现问题并采取措施
99 5
|
6月前
|
监控 数据可视化 搜索推荐
万界星空科技商业开源MES系统全面解析
万界星空科技提供商业开源MES系统,基于Java的开源版本,含源码及拖拽式数据大屏,适用于定制开发。系统集成ERP、PDM、QC,实现无缝对接与智能调度,优化资源配置。具备实时监控、质量控制、灵活定制等功能,支持低代码定制,广泛应用于多个制造业领域。欲了解更多,可访问官网或搜索联系。
152 10
|
存储 网络安全 定位技术
探秘亚马逊云科技海外服务器 | 解析跨境云计算的前沿技术与应用
海外服务器也称境外服务器。主要是指除中国大陆以外的其他国家和地区的服务器,海外服务器 其实是一个统称,包括了全球各地的服务器 例如:日本服务器,韩国服务器、美国服务器、德国服务器。
608 0
SCI论文写作训练营笔记汇总02_英文科技论文阅读与解析
首先建立一个 Excel 表格, 记录下哪年哪月读了哪篇文章、 标题是什么、 发表在什么期刊上、 内容要点有哪些、 该篇文章保存在哪一个文档中等等信息, 将这些内容录入进去以后, 再次复习时, 就可以很方便的在表格中通过搜索功能检索了,非常方便。
177 0
|
机器学习/深度学习 数据采集 人工智能
十问科学家|2022年科技趋势解析
科学家不是依赖于个人的思想,而是综合了几千人的智慧,所有人想一个问题,并且每人做它的部分工作,添加到正建立起来的伟大知识大厦之中。——著名物理学家欧内斯特·卢瑟福(Ernest Rutherford)
410 2
十问科学家|2022年科技趋势解析
|
机器学习/深度学习 人工智能 缓存
斯坦福NLP课程 | 第5讲 - 句法分析与依存解析
NLP课程第5讲内容覆盖:句法结构(成分与依赖),依赖语法与树库,基于转换的依存分析模型,神经网络依存分析器等。
1378 1
斯坦福NLP课程 | 第5讲 - 句法分析与依存解析
|
机器学习/深度学习 人工智能 缓存
NLP教程(4) - 句法分析与依存解析
本文介绍 Dependency Grammar、Dependency Structure、Neural Dependency Parsing、依存解析、依存句法 和 语法依赖等内容。
1197 1
NLP教程(4) - 句法分析与依存解析