《Python自然语言处理》——1.6 小结-阿里云开发者社区

开发者社区> 人工智能> 正文

《Python自然语言处理》——1.6 小结

简介:

本节书摘来自异步社区《Python自然语言处理》一书中的第1章,第1.6节,作者[美]Steven Bird,Ewan Klein,Edward Loper, 陈涛,张旭,崔杨,刘海平 译,更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.6 小结

  • 在Python中,文本用链表来表示:['Monty', 'Python']。我们可以使用索引、分片和len()函数对链表进行操作。
  • 词“token”(标识符)是指文本中给定词的特定出现;词“type”(类型)则是指词作为一个特定序列字母的唯一形式。我们使用len(text)表示计数词的标识符,使用len(set(text))表示计数词的类型。
  • 我们使用sorted(set(t))获得文本t的词汇表。
  • 我们使用[f(x) for x in text]对文本的每一项目进行操作。
  • 为了获得没有大小写区分和忽略标点符号的词汇表,我们可以使用set([w.lower() for w in text if w.isalpha()])。
  • 我们使用for语句对文本中的每个词进行处理,例如for win t:或者for word in text:。后面必须跟冒号和在每次循环都被执行的缩进代码。
  • 我们使用if语句测试一个条件:if len(word)<5:。后面必须跟冒号和仅当条件为真时执行的缩进代码。
  • 频率分布是项目连同它们的频率计数的集合(例如:一个文本中的词与它们出现的频率)。
  • 函数是指定了名字并且可以重用的代码块。函数通过def关键字定义,例如在def mult(x, y)中x和y是函数的参数,起到实际数据值占位符的作用。
  • 函数是通过指定它的名字及一个或多个放在括号里的实参来调用,就像这样:mult(3, 4)或者len(text1)。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
人工智能
使用钉钉扫一扫加入圈子
+ 订阅

了解行业+人工智能最先进的技术和实践,参与行业+人工智能实践项目

其他文章