开发者社区> 异步社区> 正文

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——导读

简介:
+关注继续查看

370cccfecfe98e58d2b85bfb137cf2787c3ae938

前言

NLTK基础教程——用NLTK和Python库构建机器学习应用
这是一本介绍NLTK库,以及如何将该库与其他Python库搭配运用的书。NLTK是当前自然语言处理(NLP)社区中最为流行、使用最为广泛的库之一。NLTK的设计充分体现了简单的魅力。也就是说,对于大多数复杂的NLP任务,它都可以用寥寥几行代码来实现。

本书的前半部分从介绍Python和NLP开始。在这部分内容中,你将会学到一些通用的预处理技术,例如标识化处理(tokenization)、词干提取(stemming)、停用词(stop word)去除;一些专属于NPL领域的预处理技术等,如词性标注(part-of-speech tagging);以及大多数文本相关的NLP任务都会涉及的命名实体识别(Named-entity recognition,简称NER)等技术。然后,我们会逐步将焦点转到更为复杂的NLP任务上,例如语法解析(parsing)以及其他NLP应用。

本书的后半部分则将更侧重于介绍如何构建一些NLP应用,如对于文本分类,可以用NLTK搭配scikit-learn库来进行。我们还会讨论一些其他的Python库,你应该了解一下这些与文本挖掘或自然语言处理任务相关的库。另外,也会带你看看如何从网页和社交媒体中采集数据,以及如何用NLTK进行大规模的文本处理。

目录

第1章 自然语言处理简介
1.1 为什么要学习NLP
1.2 先从Python开始吧
1.3 向NLTK迈进
1.4 练习
1.5 小结

第2章 文本的歧义及其清理
2.1 何谓文本歧义
2.2 文本清理
2.3 语句分离器
2.4 标识化处理
2.5 词干提取
2.6 词形还原
2.7 停用词移除
2.8 罕见词移除
2.9 拼写纠错
2.10 练习
2.11 小结

第3章 词性标注
第4章 文本结构解析
第5章 NLP应用
第6章 文本分类
第7章 Web爬虫
第8章 NLTK与其他Python库的搭配运用
第9章 Python中的社交媒体挖掘
第10章 大规模文本挖掘

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
机器学习:(PCA)主成分分析法及应用(spss)
机器学习:(PCA)主成分分析法及应用(spss)
60 0
机器学习实战 | 逻辑回归应用之“Kaggle房价预测”
基于kaggle网站所提供的爱荷华州埃姆斯的住宅数据信息,预测每间房屋的销售价格,数据的标签SalePrice是连续性数据,因此可以判定这是一个回归问题。
39 0
Serverless应用场景——机器学习( AI 推理预测)、Web 应用/移动应用后端、音视频转码
Serverless应用场景——机器学习( AI 推理预测)、Web 应用/移动应用后端、音视频转码自制脑图
61 0
Bagging策略和随机森林的应用以及线性回归与局部加权回归三种算法实例(线性回归、AdaBoost、GradientBoostingRegressor)【机器学习】
Bagging策略和随机森林的应用以及线性回归与局部加权回归三种算法实例(线性回归、AdaBoost、GradientBoostingRegressor)【机器学习】
61 0
【读书笔记】Python在机器学习中的应用:什么是机器学习
【读书笔记】Python在机器学习中的应用:什么是机器学习
30 0
学术加油站|机器学习应用在数据库调优领域的前沿工作解读
学术加油站|机器学习应用在数据库调优领域的前沿工作解读
56 0
人工智能和机器学习的4大应用趋势
从科技初创企业到全球巨头,他们一直在寻求与趋势技术结合来扩展业务。
62 0
+关注
异步社区
异步社区(www.epubit.com)是人民邮电出版社旗下IT专业图书旗舰社区,也是国内领先的IT专业图书社区,致力于优质学习内容的出版和分享,实现了纸书电子书的同步上架,于2015年8月上线运营。公众号【异步图书】,每日赠送异步新书。
文章
问答
文章排行榜
最热
最新
相关电子书
更多
英特尔+阿里云机器学习PAI-全栈赋能AI生态,加速应用落地
立即下载
机器学习在互联网后端技术中的应用
立即下载
阿里云机器学习平台 PAI 产品与技术
立即下载