《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.9 拼写纠错-阿里云开发者社区

开发者社区> 人工智能> 正文

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.9 拼写纠错

简介:

本节书摘来异步社区《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书中的第2章,第2.9节,作者:Nitin Hardeniya,更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.9 拼写纠错

虽然并不是所有的NLP应用都会用到拼写检查器(spellchecker),但的确有些用例是需要执行基本的拼写检查的。我们可以通过纯字典查找的方式来创建一个非常基本的拼写检查器。业界也有专门为此类应用开发的一些增强型的字符串算法,用于一些模糊的字符串匹配。其中最常用的是edit-distance算法。NLTK也为我们提供了多种内置了edit-distance算法的度量模块。

>>>from nltk.metrics import edit_distance
>>>edit_distance("rain","shine")
3 

我们将会在后续章节中更具体地介绍该模块。我们还会看到拼写检查器最优雅的实现代码之一,它出自Peter Norvig之手,这是一段用纯Python实现的、非常易于理解的代码。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
人工智能
使用钉钉扫一扫加入圈子
+ 订阅

了解行业+人工智能最先进的技术和实践,参与行业+人工智能实践项目

其他文章