开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践:基本文本处理 3】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1067/detail/15500
基本文本处理 3
内容介绍:
一、句法分析
二、 exame 4 stanfordcorenlp 句法成分分析
三、exame 5 stanfordcorenlp 依存句法分析
四、小结:句法分析思维导图
五、文本处理工具如何构建?
一、句法分析*(Syntactic parsing)
许多语言的词序相对自由,将文本视为单词的线性序列会导致性问题,单词排序的情形很多,相关词在句子中可能相距甚远。比如 “Ford, as you may well kown, is a car maker”, 在 “Ford” 和 “car maker” 之间相隔很远,如果是一个线性序列就很难理解。
了解句子中的单词如何相互关联,如果明白此关系就会非常有用,这就需要通过文本中的上下文关系来来进行挖掘,如“马云是阿里巴巴的总裁”,就是马云和阿里巴巴之间的关系,这就需要一个句法分析。如果每一个句子都可以给一个句法树 syntactic tree, 理解句子之间词和词之间的关系是非常有帮助的。
句法树如下图示例:
从图中的英文句子可知,词与词之间标明了它们的组合关系,比如名词短语、动词短语、主谓宾、主体、课体等等。中文 a、b、c 三个例子同样都是树与树的关系,且每个单词都依赖于另一个单词(*head*),句子中只有一个单词是树根。 在 b 例子当中动词“是”非常重要,且 b 例子词语词之间互相依制。边(称为依存 *dependencies)具有标签(称为 dependency types*),关于边的理解,以下是参考资料的网址,包括中文节点和英文节点,自行查看了解。
句法分析有关网址:
https://www.jianshu.com/p/24e0d53b1ee2/ 或者https://www.jianshu.com/p/6d03b991b6af
Chinese types: https://universldependencies.org/zh/dep/
English types: https://universldependencies.org/en/dep/
打开之后,就会看到核心的与非核心的一些元素如 nsubj,obj 等等,可自行点击查看进一步了解。
句法树有很多有关结构的知识,还有句子的含义。通常,同一句子可能具有多种不同的含义,有关的结构知识和句子的含义对应不同的句法树。如果想方便学习可在 B 站中学习。
学习视频网址链接:https://www.bilibili.com/video/av41393758/?p=6
学习视频是关于斯坦福大学深度自然语言处理的一套课程,有需求可自行学习。
二、 exame 4 stanfordcorenlp 句法成分分析
该句法分析,如下图。前面两行是规定的动作。通过 parse 句法树的分析然后进行运行得出相应的结果。句法结构是关系到整个句子,而句法依存是局部的词和词的关系。像整个句子“大学生活像白纸”就可以看出在整个句子里面其结构和根是什么。
三、exame 5 stanfordcorenlp 依存句法分析
以下为局部的依存句法分析,前面规定的动作部分和下面部分相同因此省略掉了。句子同样是“大学生活像白纸”,然后进行运行就会知道依存的标签是什么,标签也可以到相关网站去查看。
四、小结:句法分析思维导图
如果想要进一步更深的文本挖掘,不光要了解特征词,而且要了解每个句子里词的相互关系。
五、文本处理工具如何构建?
如下图中, Short answer 就是通过机械学习,从人工里面准备的语调去训练结构句,比如分词、词性标注、句法分析等等。要做命名实体识别需用到上下文中的数千个实体示例。准备实体数据训练的网站:http://www.universaldependencies.org
1. CoNLL format 格式的使用
依存句法分析需要一些特殊的数据格式,比如 CoNLL format 格式
以下是格式的一些示例
2. CoNLL_U format columns 格式的使用
参考文档资料网址:
Copied from http://universaldependencies.org/format.html