开发者社区> 问答> 正文

词频统计

词频统计

展开
收起
珍宝珠 2019-12-03 14:58:18 1296 0
1 条回答
写回答
取消 提交回答
  • 现在的文本相比之前的 html 文本好多了。我们再使用 Python NLTK 来计算每个词的出现频率。NLTK 中的FreqDist( ) 函数可以实现词频统计的功能 :

    from bs4 import BeautifulSoup
    import urllib.request
    import nltk 
    response = urllib.request.urlopen('http://php.net/') 
    html = response.read() 
    soup = BeautifulSoup(html,"html5lib") 
    text = soup.get_text(strip=True) 
    tokens = [t for t in text.split()] 
    freq = nltk.FreqDist(tokens) 
    for key,val in freq.items(): 
        print (str(key) + ':' + str(val))
    
    

    如果你查看输出结果,会发现最常用的词语是PHP。

    你可以用绘图函数为这些词频绘制一个图形: freq.plot(20, cumulative=False)。

    从图中,你可以肯定这篇文章正在谈论 PHP。这很棒!有一些词,如"the," "of," "a," "an," 等等。这些词是停止词。一般来说,停止词语应该被删除,以防止它们影响我们的结果。

    2019-12-03 14:58:37
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载