前言
NLTK基础教程——用NLTK和Python库构建机器学习应用
这是一本介绍NLTK库,以及如何将该库与其他Python库搭配运用的书。NLTK是当前自然语言处理(NLP)社区中最为流行、使用最为广泛的库之一。NLTK的设计充分体现了简单的魅力。也就是说,对于大多数复杂的NLP任务,它都可以用寥寥几行代码来实现。
本书的前半部分从介绍Python和NLP开始。在这部分内容中,你将会学到一些通用的预处理技术,例如标识化处理(tokenization)、词干提取(stemming)、停用词(stop word)去除;一些专属于NPL领域的预处理技术等,如词性标注(part-of-speech tagging);以及大多数文本相关的NLP任务都会涉及的命名实体识别(Named-entity recognition,简称NER)等技术。然后,我们会逐步将焦点转到更为复杂的NLP任务上,例如语法解析(parsing)以及其他NLP应用。
本书的后半部分则将更侧重于介绍如何构建一些NLP应用,如对于文本分类,可以用NLTK搭配scikit-learn库来进行。我们还会讨论一些其他的Python库,你应该了解一下这些与文本挖掘或自然语言处理任务相关的库。另外,也会带你看看如何从网页和社交媒体中采集数据,以及如何用NLTK进行大规模的文本处理。
目录
第1章 自然语言处理简介
1.1 为什么要学习NLP
1.2 先从Python开始吧
1.3 向NLTK迈进
1.4 练习
1.5 小结
第2章 文本的歧义及其清理
2.1 何谓文本歧义
2.2 文本清理
2.3 语句分离器
2.4 标识化处理
2.5 词干提取
2.6 词形还原
2.7 停用词移除
2.8 罕见词移除
2.9 拼写纠错
2.10 练习
2.11 小结
第3章 词性标注
第4章 文本结构解析
第5章 NLP应用
第6章 文本分类
第7章 Web爬虫
第8章 NLTK与其他Python库的搭配运用
第9章 Python中的社交媒体挖掘
第10章 大规模文本挖掘