NLTK 基础知识总结

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: NLTK 基础知识总结

什么是 NLTK

NLTK,全称Natural Language Toolkit,自然语言处理工具包,是NLP研究领域常用的一个Python库,由宾夕法尼亚大学的Steven Bird和Edward Loper在Python的基础上开发的一个模块,至今已有超过十万行的代码。这是一个开源项目,包含数据集、Python模块、教程等;


如何安装

详情可以参见我的另一篇博客NLP的开发环境搭建,通过这篇博客,你将学会Python环境的安装以及NLTK模块的下载;


常见模块及用途


image.png

NLTK能干啥?

  • 搜索文本
  • 单词搜索:
  • 相似词搜索;
  • 相似关键词识别;
  • 词汇分布图;
  • 生成文本;
  • 计数词汇image.pngimage.png
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2018-9-28 22:21
# @Author  : Manu
# @Site    : 
# @File    : python_base.py
# @Software: PyCharm
from __future__ import division
import nltk
import matplotlib
from nltk.book import *
from nltk.util import bigrams
# 单词搜索
print('单词搜索')
text1.concordance('boy')
text2.concordance('friends')
# 相似词搜索
print('相似词搜索')
text3.similar('time')
#共同上下文搜索
print('共同上下文搜索')
text2.common_contexts(['monstrous','very'])
# 词汇分布表
print('词汇分布表')
text4.dispersion_plot(['citizens', 'American', 'freedom', 'duties'])
# 词汇计数
print('词汇计数')
print(len(text5))
sorted(set(text5))
print(len(set(text5)))
# 重复词密度
print('重复词密度')
print(len(text8) / len(set(text8)))
# 关键词密度
print('关键词密度')
print(text9.count('girl'))
print(text9.count('girl') * 100 / len(text9))
# 频率分布
fdist = FreqDist(text1)
vocabulary = fdist.keys()
for i in vocabulary:
    print(i)
# 高频前20
fdist.plot(20, cumulative = True)
# 低频词
print('低频词:')
print(fdist.hapaxes())
# 词语搭配
print('词语搭配')
words = list(bigrams(['louder', 'words', 'speak']))
print(words)

NLTK设计目标

简易性;

一致性;

可扩展性;

模块化;

NLTK中的语料库

古腾堡语料库:gutenberg;

网络聊天语料库:webtext、nps_chat;

布朗语料库:brown;

路透社语料库:reuters;

就职演说语料库:inaugural;

其他语料库;

文本语料库结构

isolated: 独立型;

categorized:分类型;

overlapping:重叠型;

temporal:暂时型;

基本语料库函数


image.png

条件频率分布

image.png

总结

以上就是自然语言处理NLPNLTK模块的相关知识介绍了,希望通过本文能解决你对NLTK的相关疑惑,欢迎评论互相交流!!!

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
深入NLTK:Python自然语言处理库高级教程
在前面的初级和中级教程中,我们了解了NLTK库中的基本和进阶功能,如词干提取、词形还原、n-gram模型和词云的绘制等。在本篇高级教程中,我们将深入探索NLTK的更多高级功能,包括句法解析、命名实体识别、情感分析以及文本分类。
|
自然语言处理 Python
入门NLTK:Python自然语言处理库初级教程
NLTK(Natural Language Toolkit)是一个Python库,用于实现自然语言处理(NLP)的许多任务。NLTK包括一些有用的工具和资源,如文本语料库、词性标注器、语法分析器等。在这篇初级教程中,我们将了解NLTK的基础功能。
|
自然语言处理 数据可视化 Python
掌握NLTK:Python自然语言处理库中级教程
在之前的初级教程中,我们已经了解了NLTK(Natural Language Toolkit)的基本用法,如进行文本分词、词性标注和停用词移除等。在本篇中级教程中,我们将进一步探索NLTK的更多功能,包括词干提取、词形还原、n-gram模型以及词云的绘制。
BXA
|
机器学习/深度学习 数据采集 人工智能
Python自然语言处理:NLTK入门指南
自然语言处理(Natural Language Processing,NLP)是指计算机处理人类语言的领域。它是一门多学科交叉的学科,将计算机科学、人工智能、语言学等诸多学科的理论和方法融合在一起,将人类语言转化为计算机所能理解的形式,实现对人类语言的自动处理、理解和生成。NLP可以应用到很多方面,比如语音识别、机器翻译、情感分析、智能客服等
BXA
839 1
|
自然语言处理 Python
NLTK 基础知识总结
NLTK 基础知识总结
118 0
NLTK 基础知识总结
|
自然语言处理 算法 搜索推荐
Python自然语言处理 NLTK 库用法入门教程
Python自然语言处理 NLTK 库用法入门教程
546 0
Python自然语言处理 NLTK 库用法入门教程
|
机器学习/深度学习 自然语言处理 Python
|
自然语言处理 Python
推荐《用Python进行自然语言处理》中文翻译-NLTK配套书
  NLTK配套书《用Python进行自然语言处理》(Natural Language Processing with Python)已经出版好几年了,但是国内一直没有翻译的中文版,虽然读英文原版是最好的选择,但是对于多数读者,如果有中文版,一定是不错的。
1549 0