开发者社区> 异步社区> 正文

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.10 练习

简介:
+关注继续查看

本节书摘来异步社区《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书中的第2章,第2.10节,作者:Nitin Hardeniya,更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.10 练习

下面是一些开放性答案的问题。

请尝试用pyodbc库访问任意一个数据库。  
你能创建一个基于正则表达式的标识器,令其选取的单词只包含大小写字母、数字和金钱符号吗?

[w+]将会选取所有的单词和数字,即[A-Z A-Z0-9],而[$]则会匹配金钱符号。

词干提取和词性还原这两个操作之间的差异是什么?
词干提取操作更多时候是一套用于获取词干一般形式的规则方法。而词形还原主要考虑的是当前的上下文语境以及相关单词的POS,然后将规则应用到特定的语法变化中。通常来说,词干提取的操作实现起来较为简单,并且在处理时间上也要明显短于词形还原。

你可以为自己的母语设计一个(基于规则的)Porter词干提取器吗?
提示:http://Snowball.tartarus.org/algorithms/english/stemmer.html。

在完成停用词移除之后,我们还可以执行其他NLP操作吗?
答案是否定的,这是不可能的。所有典型的NLP应用,如词性标注、断句处理等,都需要根据上下文语境来为既定文本生成相关的标签。一旦我们移除了停用词,其上下文环境也就不存在了。

为什么在印地文、中文这样的语言中,词干提取器会变得难以实现?
因为印度语的词法很丰富,而中文则是标识化的难度很高,它们都在符号的标准化上遇到了一定的挑战,因此词干提取器实现起来要困难得多。我们会在后面的章节中详细讨论这些挑战。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Python如何把字典写入到CSV文件
Python如何把字典写入到CSV文件
7 0
Mysql编码|学习笔记
内容代码里的图片先保存到本地再上传,不要用原图的网络地址链接。
7 0
用户指南—实例管理—释放实例
本文介绍如何释放PolarDB-X实例。
7 0
用户指南—实例管理—只读实例
本文将介绍如何为主实例添加只读实例。
8 0
Python datatime库语法详解
Python datatime库语法详解
8 0
02创建DispatcherServlet来处理所有的请求
1.Servlet的生命周期 2.DispatcherServlet的类结构体系 3.让DispatcherServlet来处理所有的请求
10 0
Python datatime库详解(一码一图)
Python datatime库详解(一码一图)
7 0
计算机二级考试-Python程序语言设计(部分题库)
计算机二级考试-Python程序语言设计(部分题库)
5 0
进阶Python之线程进程篇
进阶Python之线程进程篇
6 0
进阶Python之Turtle库详解篇
进阶Python之Turtle库详解篇
5 0
+关注
异步社区
异步社区(www.epubit.com)是人民邮电出版社旗下IT专业图书旗舰社区,也是国内领先的IT专业图书社区,致力于优质学习内容的出版和分享,实现了纸书电子书的同步上架,于2015年8月上线运营。公众号【异步图书】,每日赠送异步新书。
12049
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
JS零基础入门教程(上册)
立即下载
性能优化方法论
立即下载
手把手学习日志服务SLS,云启实验室实战指南
立即下载