《NLTK基础教程——用NLTK和Python库构建机器学习应用》——第1章 自然语言处理简介-阿里云开发者社区

开发者社区> 异步社区> 正文

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——第1章 自然语言处理简介

简介:
+关注继续查看

本节书摘来异步社区《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书中的第1章,作者:Nitin Hardeniya,更多章节内容可以访问云栖社区“异步社区”公众号查看。

第1章 自然语言处理简介

NLTK基础教程——用NLTK和Python库构建机器学习应用
现在,让我们先从介绍自然语言处理(NLP)开始吧。众所周知,语言是人们日常生活的核心部分,任何与语言问题相关的工作都会显得非常有意思。希望这本书能带你领略到NLP的风采,并引起学习NLP的兴趣。首先,我们需要来了解一下该领域中的一些令人惊叹的概念,并在工作中实际尝试一些具有挑战性的NLP应用。

在英语环境中,语言处理研究这一领域通常被简称为NLP。对语言有深入研究的人通常被叫作语言学家,而“计算机语言学家”这个专用名词则指的是将计算机科学应用于语言处理领域的人。因此从本质上来说,一个计算机语言学家应该既有足够的语言理解能力,同时还可以用其计算机技能来模拟出语言的不同方面。虽然计算机语言学家主要研究的是语言处理理论,但NLP无疑是对计算机语言学的具体应用。

NLP多数情况下指的是计算机上各种大同小异的语言处理应用,以及用NLP技术所构建的实际应用程序。在实践中,NLP与教孩子学语言的过程非常类似。其大多数任务(如对单词、语句的理解,形成语法和结构都正确的语句等)对于人类而言都是非常自然的能力。但对于NLP来说,其中有一些任务就必须要转向标识化处理、语块分解、词性标注、语法解析、机器翻译及语音识别等这些领域的一部分,且这些任务有一大部分还仍是当前计算机领域中非常棘手的挑战。在本书中,我们将更侧重于讨论NLP的实用方面,因此我们会假设读者在NLP上已经有了一些背景知识。所以,读者最好在最低限度上对编程语言有一点了解,并对NLP和语言学有一定的兴趣。

在阅读完本章之后,我们希望读者能掌握以下内容。

对NLP及其相关概念有个基本的了解。
完成Python和NLTK及其他库的安装。
编写一些非常基本的Python和NLTK代码片段。
如果你从来没有接触过NLP这个概念词,我们在下面给你推荐了两本书,请花一些时间阅读一下其中的任何一本——只需要看看它们的前几章即可。另外,你也应该快速浏览一下维基百科上与NLP相关的页面。

《Speech and Language Processing》,由Daniel Jurafsky与James H. Martin合著。
《Statistical Natural Language Processing》,由Christopher D. Manning与Hinrich Schütze合著。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
云数据库的数据迁移|学习笔记
快速学习云数据库的数据迁移
5 0
ResNet实战:tensorflow2.X版本,ResNet50图像分类任务(大数据集)
本例提取了猫狗大战数据集中的部分数据做数据集,演示tensorflow2.X版本如何使用Keras实现图像分类,分类的模型使用ResNet50。本文实现的算法有一下几个特点: 1、自定义了图片加载方式,更加灵活高效,不用将图片一次性加载到内存中,节省内存,适合大规模数据集。 2、加载模型的预训练权重,训练时间更短。 3、数据增强选用albumentations。
7 0
ResNet实战:tensorflow2.X版本,ResNet50图像分类任务(小数据集)
本例提取了植物幼苗数据集中的部分数据做数据集,数据集共有12种类别,今天我和大家一起实现tensorflow2.X版本图像分类任务,分类的模型使用ResNet50。 通过这篇文章你可以学到: 1、如何加载图片数据,并处理数据。 2、如果将标签转为onehot编码 3、如何使用数据增强。 4、如何使用mixup。 5、如何切分数据集。 6、如何加载预训练模型。
4 0
InceptionV3实战:tensorflow2.X版本,InceptionV3图像分类任务(大数据集)
本例提取了猫狗大战数据集中的部分数据做数据集,演示tensorflow2.X版本如何使用Keras实现图像分类,分类的模型使用InceptionV3。本文实现的算法有一下几个特点: 1、自定义了图片加载方式,更加灵活高效,不用将图片一次性加载到内存中,节省内存,适合大规模数据集。 2、加载模型的预训练权重,训练时间更短。 3、数据增强选用albumentations。
6 0
centos 安装python2.7版本
centos 安装python2.7版本
11 0
ECS使用体验
使用ESC服务器搭建过比赛使用的web应用、在上面做过深度学习的实验
9 0
9 个爱不释手的 JSON 工具
众所周知,JSON让开发人员易于使用,又让机器易于解析和生成。 JSON吸引了工具构建者的注意,它们开发了用于重新格式化、验证和解析JSON的众多工具,这不足为奇。这些工具既有在Web浏览器中运行的在线实用程序,又有面向代码编辑器和IDE的插件,比如Visual Studio Code和Eclipse。
3 0
递归函数|学习笔记
快速学习递归函数
5 0
+关注
异步社区
异步社区(www.epubit.com)是人民邮电出版社旗下IT专业图书旗舰社区,也是国内领先的IT专业图书社区,致力于优质学习内容的出版和分享,实现了纸书电子书的同步上架,于2015年8月上线运营。公众号【异步图书】,每日赠送异步新书。
12049
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载