开发者社区> 问答> 正文

使用 WordNet 引入词汇

使用 WordNet 引入词汇

展开
收起
珍宝珠 2019-12-03 15:08:00 622 0
1 条回答
写回答
取消 提交回答
  • 词汇的词汇化与提取词干类似,但不同之处在于词汇化的结果是一个真正的词汇。与词干提取不同,当你试图提取一些词干时,有可能会导致这样的情况:

    from nltk.stem import PorterStemmer 
    stemmer = PorterStemmer() 
    print(stemmer.stem('increases'))
    
    

    结果是:increas。

    现在,如果我们试图用NLTK WordNet来还原同一个词,结果会是正确的:

    from nltk.stem import WordNetLemmatizer
    lemmatizer = WordNetLemmatizer()
    print(lemmatizer.lemmatize('increases'))
    
    

    结果是 increase。

    结果可能是同义词或具有相同含义的不同词语。有时,如果你试图还原一个词,比如 playing,还原的结果还是 playing。这是因为默认还原的结果是名词,如果你想得到动词,可以通过以下的方式指定。

    from nltk.stem import WordNetLemmatizer
    lemmatizer = WordNetLemmatizer()
    print(lemmatizer.lemmatize('playing', pos="v"))
    
    

    结果是: play。

    实际上,这是一个非常好的文本压缩水平。最终压缩到原文本的 50% 到 60% 左右。结果可能是动词,名词,形容词或副词:

    from nltk.stem import WordNetLemmatizer 
    lemmatizer = WordNetLemmatizer() 
    print(lemmatizer.lemmatize('playing', pos="v")) 
    print(lemmatizer.lemmatize('playing', pos="n")) 
    print(lemmatizer.lemmatize('playing', pos="a")) 
    print(lemmatizer.lemmatize('playing', pos="r"))
    
    

    结果是:

    play
    playing
    playing
    playing

    2019-12-03 15:08:54
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
如何成为一名优秀的工程师(语义篇) 立即下载
基于神经网络的语言合成 立即下载
强化学习在电商环境下的若干应用与研究 立即下载