《NLTK基础教程——用NLTK和Python库构建机器学习应用》—

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.4　标识化处理

2017-05-02 2221

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来异步社区《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书中的第2章，第2.4节，作者：Nitin Hardeniya，更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.4　标识化处理

机器所要理解的最小处理单位是单词（即分词）。所以除了标识化处理之外，我们不宜再对这些文本字符串做更进一步的处理。这里所谓的标识化，实际上就是一个将原生字符串分割成一系列有意义的分词。标识化处理的复杂性因具体的NLP应用而异，当然目标语言本身的复杂性也会带来相关的变化。例如在英语中，我们可以通过正则表达式这样简单的方式来选取纯单词内容和数字。但在中文和日文中，这会成为一个非常复杂的任务。

>>>s = "Hi Everyone !    hola gr8" # simplest tokenizer
>>>print s.split()
['Hi', 'Everyone', '!', 'hola', 'gr8']
>>>from nltk.tokenize import word_tokenize
>>>word_tokenize(s)
['Hi', 'Everyone', '!', 'hola', 'gr8']
>>>from nltk.tokenize import regexp_tokenize, wordpunct_tokenize, blankline_ tokenize 
>>>regexp_tokenize(s, pattern='\w+')
['Hi', 'Everyone', 'hola', 'gr8']
>>>regexp_tokenize(s, pattern='\d+')
['8']
>>>wordpunct_tokenize(s)
['Hi', ',', 'Everyone', '!!', 'hola', 'gr8']
>>>blankline_tokenize(s)
['Hi, Everyone !!  hola gr8']

在上述代码中，我们用到了各种标识器（tokenizer）。我们从最简单的——Python字符串类型的split()方法开始。这是一个最基本的标识器，使用空白符来执行单词分割。当然，split()方法本身也可以被配置成一些较为复杂的标识化处理过程。因此在上面的例子中，我们其实很难找出s.split()与word_tokenize()这两个方法之间的差异。

word_tokenize()方法则是一个通用的、更为强大的、可面向所有类型语料库的标识化处理方法。当然，word_tokenize()是NLTK库的内置方法。如果你不能访问它，那就说明在安装NLTK数据时出了些差错。请参照第1章“自然语言处理简介”中的内容来安装它。

通常情况下，我们有两个最常用的标识器。第一种是word_tokenize()，这是我们的默认选择，基本上能应付绝大多数的情况。另一选择是regex_tokenize()，这是一个为用户特定需求设计的、自定义程度更高的标识器。其他的大部分标识器都可以通过继承正则表达式的标识器来实现。我们也可以利用某种不同的模式来构建一个非常具体的标识器。如在上述代码的第8行，我们也可以基于正则表达式的标识器分割出相同的字符串。你可以用w+这个正则表达式，它会从目标字符串中分隔出所有我们所需要的单词和数字，其他语义符号也可以通过类似的分割器来进行分离，如对于上述代码的第 10 行，我们可以使用d+这个正则表达式。这样我们就能从目标字符串中提取出纯数字内容。

现在，你能为提取大小写单词、数字和金钱符号构建专用的正则表达式标识器吗？

提示：只需参考之前正则表达式的查询模式来使用regex_tokenize()即可。

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.4　标识化处理

2.4　标识化处理

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.4 标识化处理

2.4 标识化处理

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.4　标识化处理

2.4　标识化处理