文档备案控制台

开发者社区人工智能文章正文

斯坦福NLP课程 | 第5讲 - 句法分析与依存解析

2022-05-05 2035

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： NLP课程第5讲内容覆盖：句法结构（成分与依赖），依赖语法与树库，基于转换的依存分析模型，神经网络依存分析器等。

ShowMeAI研究中心

作者：韩信子@ShowMeAI，路遥@ShowMeAI，奇异果@ShowMeAI
教程地址：http://www.showmeai.tech/tutorials/36
本文地址：http://www.showmeai.tech/article-detail/238
声明：版权所有，转载请联系平台与作者并注明出处

收藏ShowMeAI查看更多精彩内容

句法分析与依存解析
ShowMeAI为斯坦福CS224n《自然语言处理与深度学习(Natural Language Processing with Deep Learning)》课程的全部课件，做了中文翻译和注释，并制作成了GIF动图！

句法分析与依存解析
本讲内容的深度总结教程可以在这里查看。视频和课件等资料的获取方式见文末。

引言

句法依存分析

授课计划

授课计划

1.句法结构：成分与依赖

1.1 语言结构的两种观点：无上下文语法

语言结构的两种观点：无上下文语法

句子是使用逐步嵌套的单元构建的
短语结构将单词组织成嵌套的成分

起步单元：单词被赋予一个类别
- part of speech = pos 词性
单词组合成不同类别的短语
短语可以递归地组合成更大的短语

Det 指的是 Determiner，在语言学中的含义为 限定词
NP 指的是 Noun Phrase，在语言学中的含义为 名词短语
VP 指的是 Verb Phrase，在语言学中的含义为 动词短语
P 指的是 Preposition，在语言学中的含义为介词
PP 指的是 Prepositional Phrase，在语言学中的含义为 介词短语

1.2 语言结构的两种观点：无上下文语法

语言结构的两种观点：无上下文语法

1.3 语言结构的两种观点：依赖结构

语言结构的两种观点：依赖结构

不是使用各种类型的短语，而是直接通过单词与其他的单词关系表示句子的结构，显示哪些单词依赖于(修饰或是其参数)哪些其他单词

补充讲解

look 是整个句子的根源，look 依赖于 crate (或者说 crate 是 look 的依赖)
- in，the，large 都是 crate 的依赖
- in the kitchen 是 crate 的修饰
- in，the 都是 kitchen 的依赖
- by the door 是 crate 的依赖

1.4 为什么我们需要句子结构？

为什么我们需要句子结构？

为了能够正确地解释语言，我们需要理解句子结构
人类通过将单词组合成更大的单元来传达复杂的意思，从而交流复杂的思想
我们需要知道什么与什么相关联
- 除非我们知道哪些词是其他词的参数或修饰词，否则我们无法弄清楚句子是什么意思

1.5 介词短语依附歧义

介词短语依附歧义

San Jose cops kill man with knife

警察用刀杀了那个男子
- cops 是 kill 的 subject (subject 指主语)
- man 是 kill 的 object (object 指宾语)
- knife 是 kill 的 modifier (modifier 指 修饰符)

警察杀了那个有刀的男子
- knife 是 man 的 modifier (名词修饰符，简称为 nmod)

1.6 介词短语依附歧义

介词短语依附歧义

补充讲解

from space 这一介词短语修饰的是前面的动词 count 还是名词 whales？
- 这就是人类语言和编程语言中不同的地方

1.7 介词短语附加歧义成倍增加

介词短语附加歧义成倍增加

关键的解析决策是我们如何“依存”各种成分
- 介词短语、状语或分词短语、不定式、协调等。

补充讲解：
上述句子中有四个介词短语

board 是 approved 的主语，acquisition 是 approved 的谓语
by Royal Trustco Ltd. 是修饰 acquisition 的，即董事会批准了这家公司的收购
of Toronto 可以修饰 approved，acquisition，Royal Trustco Ltd. 之一，经过分析可以得知是修饰 Royal Trustco Ltd.，即表示这家公司的位置
for 27 a share 修饰 acquisition
at its monthly meeting 修饰 approved，即表示批准的时间地点

补充讲解：
面对这样复杂的句子结构，我们需要考虑指数级的可能结构，这个序列被称为 卡特兰数/Catalan numbers

Catalan numbers

1.8 协调范围模糊

协调范围模糊

补充讲解

Shuttle veteran and longtime NASA executive Fred Gregory appointed to board

一个人：[[Shuttle veteran and longtime NASA executive] Fred Gregory] appointed to board
两个人：[Shuttle veteran] and [longtime NASA executive Fred Gregory] appointed to board

1.9 协调范围模糊

协调范围模糊

例句：Doctor: No heart，cognitive issues

1.10 形容词修饰语歧义

形容词修饰语歧义

补充讲解
Students get first hand job experience

first hand 表示第一手的，直接的，即学生获得了直接的工作经验
- first 是 hand 的形容词修饰语(amod)
first 修饰 experience，hand 修饰 job

1.11 动词短语(VP)依存歧义

动词短语(VP)依存歧义

补充讲解

Mutilated body washes up on Rio beach to be used for Olympic beach volleyball

to be used for Olympic beach volleyball 是动词短语 (VP)
修饰的是 body 还是 beach

2.依赖语法与树库

2.1 #论文解读# 依赖路径识别语义关系

#论文解读# 依赖路径识别语义关系

2.2 依存文法和依存结构

依存文法和依存结构

关联语法假设句法结构包括词汇项之间的关系，通常是二元不对称关系(“箭头”)，称为依赖关系

Dependency Structure有两种表现形式

一种是直接在句子上标出依存关系箭头及语法关系
另一种是将其做成树状机构(Dependency Tree Graph)

箭头通常标记(type)为语法关系的名称(主题、介词对象、apposition等)
箭头连接头部(head)(调速器，上级，regent)和一个依赖(修饰词，下级，下属)
- 的事情
通常，依赖关系形成一棵树(单头，无环，连接图)

2.3 依存语法/解析历史

依存语法/解析历史

2.4 依存语法/解析历史

依存语法/解析历史

依赖结构的概念可以追溯到很久以前
- Paṇini的语法(公元前5世纪)
- 一千年，阿拉伯语的语法的基本方法

选区/上下文无关文法是一个新奇的发明
- 20世纪发明(R.S.Wells,1947; then Chomsky)

现代依赖工作经常源于 L. Tesnière(1959)
- 是20世纪“东方”的主导方法(俄罗斯，中国，…)
  - 有利于更自由的语序语言

NLP中最早类型的解析器在美国
- David Hays 是美国计算语言学的创始人之一，他很早就(第一个?)构建了依赖解析器(Hays 1962)

2.5 依存语法和依赖结构

依存语法和依赖结构

人们对箭头指向的方式不一致：有些人把箭头朝一个方向画；有人是反过来的
- Tesnière 从头开始指向依赖，本课使用此种方式
通常添加一个伪根指向整个句子的头部，这样每个单词都精确地依赖于另一个节点

2.6 带注释数据的兴起：通用依存句法树库

带注释数据的兴起：通用依存句法树库

补充讲解
Universal Dependencies：我们想要拥有一个统一的、并行的依赖描述，可用于任何人类语言

从前手工编写语法然后训练得到可以解析句子的解析器
用一条规则捕捉很多东西真的很有效率，但是事实证明这在实践中不是一个好主意
- 语法规则符号越来越复杂，并且没有共享和重用人类所做的工作
句子结构上的 treebanks 支持结构更有效

2.7 带注释数据的兴起

带注释数据的兴起

从一开始，构建 treebank 似乎比构建语法慢得多，也没有那么有用

但是 treebank 给我们提供了许多东西
- 可重用性
  - 许多解析器、词性标记器等可以构建在它之上
  - 语言学的宝贵资源
- 广泛的覆盖面，而不仅仅是一些直觉
- 频率和分布信息
- 一种评估系统的方法

2.8 依赖条件首选项

依赖条件首选项

依赖项解析的信息来源是什么？

1.Bilexical affinities (两个单词间的密切关系)

[discussion → issues] 是看上去有道理的

Dependency distance 依赖距离

主要是与相邻词

Intervening material 介于中间的物质

依赖很少跨越介于中间的动词或标点符号

Valency of heads

How many dependents on which side are usual for a head?

2.9 依赖关系分析

依赖关系分析

通过为每个单词选择它所依赖的其他单词(包括根)来解析一个句子

通常有一些限制
- 只有一个单词是依赖于根的
- 不存在循环 A→B，B→A
这使得依赖项成为树
最后一个问题是箭头是否可以交叉(非投影的 non-projective)
- 没有交叉的就是non-projectice

2.10 射影性

射影性

定义：当单词按线性顺序排列时，没有交叉的依赖弧，所有的弧都在单词的上方

与CFG树并行的依赖关系必须是投影的
- 通过将每个类别的一个子类别作为头来形成依赖关系

但是依赖理论通常允许非投射结构来解释移位的成分
- 如果没有这些非投射依赖关系，就不可能很容易获得某些结构的语义

2.11 依存分析方法

依存分析方法

Dynamic programming

Eisner(1996)提出了一种复杂度为 O(n3) 的聪明算法，它生成头部位于末尾而不是中间的解析项

Graph algorithms

为一个句子创建一个最小生成树
McDonald et al.’s (2005) MSTParser 使用ML分类器独立地对依赖项进行评分(他使用MIRA进行在线学习，但它也可以是其他东西)

Constraint Satisfaction

去掉不满足硬约束的边 Karlsson(1990), etc.

"Transition-based parsing" or "deterministic dependency parsing"

良好的机器学习分类器 MaltParser(Nivreet al. 2008) 指导下的依存贪婪选择。已证明非常有效。

3.基于转换的依存分析模型

3.1 #论文解读# Greedy transition-based parsing [Nivre 2003]

贪婪判别依赖解析器一种简单形式
解析器执行一系列自底向上的操作
- 大致类似于shift-reduce解析器中的“shift”或“reduce”，但“reduce”操作专门用于创建头在左或右的依赖项

解析器如下：
- 栈以 ROOT 符号开始，由若干组成
- 缓存以输入序列开始，由若干组成
- 一个依存弧的集合，一开始为空。每条边的形式是，其中描述了节点的依存关系
- 一组操作

3.2 基本的基于转换的依存关系解析器

基本的基于转换的依存关系解析器

最终目标是，，包含了所有的依存弧

补充讲解
state之间的transition有三类：

SHIFT：将buffer中的第一个词移出并放到stack上。
LEFT-ARC：将加入边的集合，其中是stack上的次顶层的词，是stack上的最顶层的词。
RIGHT-ARC：将加入边的集合，其中是stack上的次顶层的词，是stack上的最顶层的词。

我们不断的进行上述三类操作，直到从初始态达到最终态。

在每个状态下如何选择哪种操作呢？
当我们考虑到 LEFT-ARC 与 RIGHT-ARC 各有 (为的类的个数)种类，我们可以将其看做是class数为的分类问题，可以用SVM等传统机器学习方法解决。

3.3 基于Arc标准转换的解析器

基于Arc标准转换的解析器

还有其他的 transition 方案
Analysis of I ate fish

3.4 #论文解读# MaltParser [Nivre and Hall 2005]

我们需要解释如何选择下一步行动
- Answer：机器学习

每个动作都由一个有区别分类器(例如softmax classifier)对每个合法的移动进行预测
最多三种无类型的选择，当带有类型时，最多种
Features：栈顶单词，POS；buffer中的第一个单词，POS；等等

在最简单的形式中是没有搜索的
- 但是，如果你愿意，你可以有效地执行一个 Beam search 束搜索(虽然速度较慢，但效果更好)：你可以在每个时间步骤中保留个好的解析前缀

该模型的精度略低于依赖解析的最高水平，但它提供了非常快的线性时间解析，性能非常好

3.5 传统特征表示

传统特征表示

传统的特征表示使用二元的稀疏向量
特征模板：通常由配置中的个元素组成
Indicator features

3.6 依赖分析的评估：(标记)依赖准确性

依赖分析的评估：(标记)依赖准确性

UAS (unlabeled attachment score) 指无标记依存正确率
LAS (labeled attachment score) 指有标记依存正确率

3.7 处理非投影性

处理非投影性

我们提出的弧标准算法只构建投影依赖树

头部可能的方向：

在非投影弧上宣布失败
只具有投影表示时使用依赖形式[CFG只允许投影结构]
使用投影依赖项解析算法的后处理器来识别和解析非投影链接
添加额外的转换，至少可以对大多数非投影结构建模(添加一个额外的交换转换，冒泡排序)
转移到不使用或不需要对投射性进行任何约束的解析机制(例如，基于图的MSTParser)

3.8 为什么要训练神经依赖解析器？重新审视指标特征

为什么要训练神经依赖解析器？重新审视指标特征

Indicator Features的问题
- 问题1：稀疏
- 问题2：不完整
- 问题3：计算复杂

超过95%的解析时间都用于特征计算

4.神经网络依存分析器

4.1 #论文解读# A neural dependency parser [Chen and Manning 2014]

斯坦福依存关系的英语解析
- Unlabeled attachment score (UAS) = head
- Labeled attachment score (LAS) = head and label

效果好，速度快

4.2 分布式表示

分布式表示

我们将每个单词表示为一个d维稠密向量(如词向量)
- 相似的单词应该有相近的向量

同时，part-of-speech tags 词性标签(POS)和 dependency labels 依赖标签也表示为d维向量
- 较小的离散集也表现出许多语义上的相似性。

NNS(复数名词)应该接近NN(单数名词)
- num(数值修饰语)应该接近amod(形容词修饰语)

4.3 从配置中提取令牌和向量表示

从配置中提取令牌和向量表示

补充讲解

对于Neural Dependency Parser，其输入特征通常包含三种
- stack和buffer中的单词及其dependent word
- 单词的part-of-speech tag
- 描述语法关系的arc label

4.4 模型体系结构

模型体系结构

4.5 句子结构的依存分析

句子结构的依存分析

神经网络可以准确地确定句子的结构，支持解释

Chen and Manning(2014)是第一个简单，成功的神经依赖解析器
密集的表示使得它在精度和速度上都优于其他贪婪的解析器

4.6 基于转换的神经依存分析的新进展

基于转换的神经依存分析的新进展

这项工作由其他人进一步开发和改进，特别是在谷歌
- 更大、更深的网络中，具有更好调优的超参数
- Beam Search 更多的探索动作序列的可能性，而不是只考虑当前的最优
- 全局、条件随机场(CRF)的推理出决策序列

这就引出了SyntaxNet和Parsey McParseFace模型

4.7 基于图形的依存关系分析器

基于图形的依存关系分析器

4.8 #论文解读# A Neural graph-based dependency parser [Dozat and Manning 2017; Dozat, Qi, and Manning 2017]

为每条边的每一个可能的依赖关系计算一个分数

为每条边的每一个可能的依赖关系计算一个分数
- 然后将每个单词的边缘添加到其得分最高的候选头部
- 并对每个单词重复相同的操作

在神经模型中为基于图的依赖分析注入活力
- 为神经依赖分析设计一个双仿射评分模型
- 也使用神经序列模型，我们将在下周讨论

非常棒的结果
- 但是比简单的基于神经传递的解析器要慢
- 在一个长度为的句子中可能有个依赖项

5.视频教程

可以点击 B站查看视频的【双语字幕】版本

6.参考资料

ShowMeAI 系列教程推荐

自然语言处理(NLP)系列教程

斯坦福 CS224n 课程带学详解

文章标签：

自然语言处理

云解析DNS

Python

计算机视觉

自然语言处理

机器学习/深度学习

数据挖掘

人工智能

安全

算法

缓存

大数据

关键词：

分析云解析DNS

自然语言处理解析

自然语言处理分析

云解析DNS课程

课程云解析DNS

ShowMeAI

目录

相关文章

龙大吉

|

自然语言处理算法 Python

自然语言处理（NLP）在文本分析中的应用：从「被动收集」到「主动分析」

【10月更文挑战第9天】自然语言处理（NLP）在文本分析中的应用：从「被动收集」到「主动分析」

龙大吉

521 4 4

郑小健

|

机器学习/深度学习数据采集存储

时间序列预测新突破：深入解析循环神经网络（RNN）在金融数据分析中的应用

【10月更文挑战第7天】时间序列预测是数据科学领域的一个重要课题，特别是在金融行业中。准确的时间序列预测能够帮助投资者做出更明智的决策，比如股票价格预测、汇率变动预测等。近年来，随着深度学习技术的发展，尤其是循环神经网络（Recurrent Neural Networks, RNNs）及其变体如长短期记忆网络（LSTM）和门控循环单元（GRU），在处理时间序列数据方面展现出了巨大的潜力。本文将探讨RNN的基本概念，并通过具体的代码示例展示如何使用这些模型来进行金融数据分析。

郑小健

1548 2 2

蚝油菜花

|

人工智能自然语言处理 Java

FastExcel：开源的 JAVA 解析 Excel 工具，集成 AI 通过自然语言处理 Excel 文件，完全兼容 EasyExcel

FastExcel 是一款基于 Java 的高性能 Excel 处理工具，专注于优化大规模数据处理，提供简洁易用的 API 和流式操作能力，支持从 EasyExcel 无缝迁移。

蚝油菜花

3900 65 65

FastExcel：开源的 JAVA 解析 Excel 工具，集成 AI 通过自然语言处理 Excel 文件，完全兼容 EasyExcel

奔跑的数据

|

数据采集前端开发 JavaScript

金融数据分析：解析JavaScript渲染的隐藏表格

本文详解了如何使用Python与Selenium结合代理IP技术，从金融网站（如东方财富网）抓取由JavaScript渲染的隐藏表格数据。内容涵盖环境搭建、代理配置、模拟用户行为、数据解析与分析等关键步骤。通过设置Cookie和User-Agent，突破反爬机制；借助Selenium等待页面渲染，精准定位动态数据。同时，提供了常见错误解决方案及延伸练习，帮助读者掌握金融数据采集的核心技能，为投资决策提供支持。注意规避动态加载、代理验证及元素定位等潜在陷阱，确保数据抓取高效稳定。

奔跑的数据

557 17 17

路人与大师

|

数据采集自然语言处理搜索推荐

基于qwen2.5的长文本解析、数据预测与趋势分析、代码生成能力赋能esg报告分析

Qwen2.5是一款强大的生成式预训练语言模型，擅长自然语言理解和生成，支持长文本解析、数据预测、代码生成等复杂任务。Qwen-Long作为其变体，专为长上下文场景优化，适用于大型文档处理、知识图谱构建等。Qwen2.5在ESG报告解析、多Agent协作、数学模型生成等方面表现出色，提供灵活且高效的解决方案。

路人与大师

1586 49 50

bruce_xiaowei

|

测试技术开发者 Python

使用Python解析和分析源代码

本文介绍了如何使用Python的`ast`模块解析和分析Python源代码，包括安装准备、解析源代码、分析抽象语法树（AST）等步骤，展示了通过自定义`NodeVisitor`类遍历AST并提取信息的方法，为代码质量提升和自动化工具开发提供基础。

bruce_xiaowei

1611 9 9

最好zzz

|

调度开发者

核心概念解析：进程与线程的对比分析

在操作系统和计算机编程领域，进程和线程是两个基本而核心的概念。它们是程序执行和资源管理的基础，但它们之间存在显著的差异。本文将深入探讨进程与线程的区别，并分析它们在现代软件开发中的应用和重要性。

最好zzz

626 4 4

小周sir

|

机器学习/深度学习人工智能自然语言处理

探索深度学习与自然语言处理的前沿技术：Transformer模型的深度解析

探索深度学习与自然语言处理的前沿技术：Transformer模型的深度解析

小周sir

788 1 1

风吹落叶花飘荡

|

自然语言处理算法数据可视化

NLP-基于bertopic工具的新闻文本分析与挖掘

这篇文章介绍了如何使用Bertopic工具进行新闻文本分析与挖掘，包括安装Bertopic库、加载和预处理数据集、建立并训练主题模型、评估模型性能、分类新闻标题、调优聚类结果的详细步骤和方法。

风吹落叶花飘荡

3136 3 3

NLP-基于bertopic工具的新闻文本分析与挖掘

龙大吉

|

自然语言处理算法数据挖掘

探讨如何利用Python中的NLP工具，从被动收集到主动分析文本数据的过程

【10月更文挑战第11天】本文介绍了自然语言处理（NLP）在文本分析中的应用，从被动收集到主动分析的过程。通过Python代码示例，详细展示了文本预处理、特征提取、情感分析和主题建模等关键技术，帮助读者理解如何有效利用NLP工具进行文本数据分析。

龙大吉

446 2 3

热门文章

最新文章

2017年度最值得读的AI论文 | NLP篇 · 评选结果公布

自然语言处理 Paddle NLP - 文本语义相似度计算（ERNIE-Gram）

斯坦福NLP课程 | 第12讲 - NLP子词模型

自然语言处理中的语义理解和生成技术

NLP教程(9) - 句法分析与树形递归神经网络

探索深度学习中的Transformer模型及其在自然语言处理中的应用

一文概览NLP算法(Python)（上）

NLP--- How to install the tool NLTK in Ubuntu ?

NLP之情感分析：基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)

nlp文本提取关键词

Kali虚拟机间搭建iodine DNS隧道实验指南

新功能上线：云解析DNS-重点域名监控功能发布

DNS更新后不生效？快速排查攻略

2025云栖大会分论坛《共建韧性互联网基础资源服务（DNS+IPv6）》即将开幕，欢迎光临

阿里云上云流程参考：云服务器+域名+备案+域名解析绑定，全流程图文详解

阿里云【域名解析】图文详细流程（步骤详细小白也能搞定）

利用Private Zone DNS - 搭建AD但不搭建DNS服务器如何加域

DNS+：互联网的下一个十年，为什么域名系统正在重新定义数字生态？ ——解读《“DNS+”发展白皮书（2023）》

SSL证书验证全攻略：DNS/HTTP/手动解析怎么选？

Infoblox DDI (NIOS) 9.0 - DNS、DHCP 和 IPAM (DDI) 核心网络服务管理

相关课程

更多

深入解析Docker容器化技术

达摩院NLP（自然语言处理）技术和应用

达摩院自然语言处理NLP技术和应用

Java面试疑难点解析 - 面试技巧及语言基础

Java面试疑难点解析 - Java Web开发

Java面试疑难点解析 - 系统架构及项目设计

相关电子书

更多

自然语言处理得十个发展趋势

自然语言处理的十个发展趋势

深度学习与自然语言处理

推荐镜像

更多

DNS

下一篇

小红书笔记详情API深度解析与实战指南（2025年最新版）