开发者社区> 问答> 正文

NLTK词干提取

NLTK词干提取

展开
收起
珍宝珠 2019-12-03 15:06:12 689 0
1 条回答
写回答
取消 提交回答
  • 单词词干提取就是从单词中去除词缀并返回词根。(比方说 working 的词干是 work。)搜索引擎在索引页面的时候使用这种技术,所以很多人通过同一个单词的不同形式进行搜索,返回的都是相同的,有关这个词干的页面。

    词干提取的算法有很多,但最常用的算法是 Porter 提取算法。NLTK 有一个 PorterStemmer 类,使用的就是 Porter 提取算法。

    from nltk.stem import PorterStemmer
    stemmer = PorterStemmer() 
    print(stemmer.stem('working'))
    
    

    结果是: work

    结果很清楚。

    还有其他一些提取算法,如 Lancaster 提取算法。这个算法的输出同 Porter 算法的结果在几个单词上不同。你可以尝试他们两个算法来查看有哪些不同结果。

    2019-12-03 15:06:51
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载