下面是一段简单的Python代码,展示了如何使用自然语言处理库nltk
进行文本的基本处理,比如分词(tokenization)和词频统计。
首先,你需要安装nltk
库:
pip install nltk
接下来是一个示例代码:
import nltk
from nltk.probability import FreqDist
from nltk.tokenize import word_tokenize
# 下载必要的资源
nltk.download('punkt')
# 示例文本
text = "Natural language processing is a field of artificial intelligence. It helps computers understand human language."
# 分词
words = word_tokenize(text)
# 计算词频
fdist = FreqDist(words)
# 输出词频统计
print("词频统计:")
for word, frequency in fdist.items():
print(f"{word}: {frequency}")
解释:
- 分词:使用
word_tokenize
方法将文本拆分为一个个单词。 - 词频统计:使用
FreqDist
类对文本中的每个单词出现的频率进行统计,并输出结果。
运行这段代码后,会输出文本中每个词出现的次数,帮助你理解文本的结构和常用词。这个简单的例子展示了自然语言处理中基本的文本处理操作。