基本文本处理 3|学习笔记

简介: 快速学习基本文本处理 3

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践基本文本处理 3】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15500


基本文本处理 3

 

内容介绍:

一、句法分析

二、 exame 4 stanfordcorenlp 句法成分分析

三、exame 5 stanfordcorenlp 依存句法分析

四、小结:句法分析思维导图

五、文本处理工具如何构建?

 

一、句法分析*(Syntactic parsing)

许多语言的词序相对自由,将文本视为单词的线性序列会导致性问题,单词排序的情形很多,相关词在句子中可能相距甚远。比如  “Ford, as you may well kown, is a car maker”,  在 “Ford” 和  “car maker” 之间相隔很远,如果是一个线性序列就很难理解。

了解句子中的单词如何相互关联,如果明白此关系就会非常有用,这就需要通过文本中的上下文关系来来进行挖掘,如“马云是阿里巴巴的总裁”,就是马云和阿里巴巴之间的关系,这就需要一个句法分析。如果每一个句子都可以给一个句法树 syntactic tree, 理解句子之间词和词之间的关系是非常有帮助的。

句法树如下图示例:

image.png

image.png从图中的英文句子可知,词与词之间标明了它们的组合关系,比如名词短语、动词短语、主谓宾、主体、课体等等。中文 a、b、c 三个例子同样都是树与树的关系,且每个单词都依赖于另一个单词(*head*),句子中只有一个单词是树根。 在 b 例子当中动词“是”非常重要,且 b 例子词语词之间互相依制。边(称为依存 *dependencies)具有标签(称为 dependency types*),关于边的理解,以下是参考资料的网址,包括中文节点和英文节点,自行查看了解。

句法分析有关网址:

https://www.jianshu.com/p/24e0d53b1ee2/ 或者https://www.jianshu.com/p/6d03b991b6af 

Chinese types: https://universldependencies.org/zh/dep/ 

English types: https://universldependencies.org/en/dep/

打开之后,就会看到核心的与非核心的一些元素如 nsubj,obj 等等,可自行点击查看进一步了解。

image.png句法树有很多有关结构的知识,还有句子的含义。通常,同一句子可能具有多种不同的含义,有关的结构知识和句子的含义对应不同的句法树。如果想方便学习可在 B 站中学习。

学习视频网址链接:https://www.bilibili.com/video/av41393758/?p=6  

学习视频是关于斯坦福大学深度自然语言处理的一套课程,有需求可自行学习。

 

二、 exame 4 stanfordcorenlp 句法成分分析

该句法分析,如下图。前面两行是规定的动作。通过 parse 句法树的分析然后进行运行得出相应的结果。句法结构是关系到整个句子,而句法依存是局部的词和词的关系。像整个句子“大学生活像白纸”就可以看出在整个句子里面其结构和根是什么。

image.png


三、exame 5 stanfordcorenlp 依存句法分析

以下为局部的依存句法分析,前面规定的动作部分和下面部分相同因此省略掉了。句子同样是“大学生活像白纸”,然后进行运行就会知道依存的标签是什么,标签也可以到相关网站去查看。

image.png


四、小结:句法分析思维导图

image.png

image.png如果想要进一步更深的文本挖掘,不光要了解特征词,而且要了解每个句子里词的相互关系。

 

五、文本处理工具如何构建?

如下图中, Short answer 就是通过机械学习,从人工里面准备的语调去训练结构句,比如分词、词性标注、句法分析等等。要做命名实体识别需用到上下文中的数千个实体示例。准备实体数据训练的网站:http://www.universaldependencies.org 

 

image.png1. CoNLL format 格式的使用

依存句法分析需要一些特殊的数据格式,比如 CoNLL format 格式

以下是格式的一些示例

image.png

2. CoNLL_U format columns 格式的使用

参考文档资料网址:

Copied from http://universaldependencies.org/format.html 

image.png

相关文章
|
数据采集 监控 数据处理
九、正则表达式详解:掌握强大的文本处理工具(一)
九、正则表达式详解:掌握强大的文本处理工具(一)
|
数据采集
十、正则表达式详解:掌握强大的文本处理工具(二)
十、正则表达式详解:掌握强大的文本处理工具(二)
|
数据采集 搜索推荐 算法
十一、正则表达式详解:掌握强大的文本处理工具(三)
十一、正则表达式详解:掌握强大的文本处理工具(三)
|
机器学习/深度学习 自然语言处理 搜索推荐
基本文本处理 1|学习笔记
快速学习基本文本处理 1
基本文本处理 1|学习笔记
|
自然语言处理 定位技术 开发者
基本文本处理 2|学习笔记
快速学习基本文本处理 2
基本文本处理 2|学习笔记
|
弹性计算 网络协议 NoSQL
Linux指令入门-文本处理
云起冬季实战营第二期:Linux操作系统实战入门。参加复习一下Liunx命令,并简单写一下在日常工作中已开发视角,那些命令比较常用。 第一节Linux指令入门-文本处理。
233 0
Linux指令入门-文本处理
|
Linux 开发工具
Linux指令入门-文本处理,学习有感
Linux指令入门-文本处理
86 0
|
监控 Linux C#
文本处理命令 | 学习笔记
快速学习文本处理命令。
104 0
|
监控
文本处理工具
时间:2017.11.21 作者:李强 参考:man,info,magedu讲义 声明:以下英文纯属个人翻译,英文B级,欢迎纠正,以下内容纯属个人理解,并没有对错,只是参考,盗版不纠,才能有限,希望不误人子弟为好。
594 0