NLTK是Python的一个自然语言处理的模块,其中实现了朴素贝叶斯分类算法。以下,就使用上一篇文中提到的数据,来应用这个模块实现朴素贝叶斯分类。NLTK的实现更加泛化,所以在应用到我们的数据上时需要做一点的转化。
首先来看一下NLTK官方文档中给出的一个简单明了的例子,在了解这个例子之后,再设法将同样的模型应用到自己的数据集上。官方给出的例子是英文名中,在知道名字中最后一个字母后,判断这个名字对应的人是男是女。
-
-
import random, nltk
-
from nltk.corpus import names
-
-
def gender_features(word):
-
''
-
return {'last_letter': word[-1]}
-
-
labeled_names = ([(name, 'male') for name in names.words('male.txt')] + [(name, 'female') for name in names.words('female.txt')])
-
-
random.shuffle(labeled_names)
-
-
featuresets = [(gender_features(name), gender) for (name, gender) in labeled_names]
-
-
train_set, test_set = featuresets[500:], featuresets[:500]
-
-
classifier = nltk.NaiveBayesClassifier.train(train_set)
-
-
print(nltk.classify.accuracy(classifier, test_set))
-
-
print(classifier.classify({'last_letter': 'a'}))
-
-
classifier.show_most_informative_features(5)
以上程序的输出如下:
-
0.754
-
female
-
Most Informative Features
-
last_letter = u'a' female : male = 35.6 : 1.0
-
last_letter = u'k' male : female = 30.7 : 1.0
-
last_letter = u'f' male : female = 16.6 : 1.0
-
last_letter = u'p' male : female = 12.5 : 1.0
-
last_letter = u'm' male : female = 11.1 : 1.0
从结果中,我们可以看到,通过训练集训练出的模型,在应用到测试集上时,其准确率为75%;如果一个人的名字以字母‘a’结束,那么此分类器将其划分为女性;最后输出了最能区分男女的5个属性值的数据,比如,对于字母‘a’来说,它作为女性名的最后一个字母的可能性是男性的35倍。
可以看到NLTK的朴素贝叶斯实现之中,它的输入的训练集的输入是类似于以下的形式:
[
({'attr1':val1, 'attr2': val2, 'attr3': val3 ... 'attrn': valn}, label1),
({'attr1':val1, 'attr2': val2, 'attr3': val3 ... 'attrn': valn}, label2),
......
]
其中,每个特征对应一个标签,在以上的官方的例子中,特征就只有一个,last_letter;而特征的可能值是26个字母。对应到自己的数据,对应一个用户就不止有一个特征了,而是用户安装的APP名称列表,同时又由于每个用户安装的APP可能不同,所以不同的用户所对应的特征的长度也是可能不同的;而每个属性(APP名称)对应的值只有两个:安装或者没安装。
以下的代码中的注释以及输出说明了整个转化过程(使用了上篇文章中第三步中生成的数据):
-
-
-
from collections import defaultdict
-
import nltk
-
-
def gender_features(appnamelist):
-
features = defaultdict(bool)
-
for appname in appnamelist:
-
features[appname] = True
-
return features
-
-
if __name__ == '__main__':
-
raw_data = defaultdict(lambda: defaultdict(list))
-
with open('data/genderapplist.log') as f:
-
for line in f:
-
cells = line.strip().split('\t')
-
if len(cells) == 3:
-
imei, gender, appname = cells
-
gender = 'male' if gender == '男性应用' else 'female'
-
raw_data[gender][imei].append(appname)
-
-
labeled_applist = [(appnamelist, 'male') for appnamelist in raw_data['male'].values()] + [(appnamelist, 'female') for appnamelist in raw_data['female'].values()]
-
featuresets = [(gender_features(appnamelist), gender) for appnamelist, gender in labeled_applist]
-
train_set, test_set = featuresets[500:], featuresets[:500]
-
classifier = nltk.NaiveBayesClassifier.train(train_set)
-
-
-
-
-
-
print '以下是 _label_probdist的相关信息'
-
print '1. 类型'
-
print type(classifier._label_probdist)
-
print '2. 标签的整体分布状况'
-
classifier._label_probdist.freqdist().tabulate()
-
print '3. 由第二步推出的标签的概率分布'
-
print classifier._label_probdist.prob('female'), classifier._label_probdist.prob('male')
-
-
print '*' * 32
-
-
-
print '以下是 _feature_probdist的相关信息'
-
print '1. 类型'
-
print type(classifier._feature_probdist)
-
print '2. 从1的输出中可以看到其类型为dict,我们看它的一个key和value即可'
-
print classifier._feature_probdist.items()[6302]
-
print '3. 从2中可以看到,其代表了,在标签为female的情况下,安装了支付宝钱包这个应用的概率分布'
-
classifier._feature_probdist.items()[6302][1].freqdist().tabulate()
-
print '4. 3的输出,我们非常熟悉,也就是在所有4910个female用户中,有77个安装了支付宝钱包,没有安装的有4833个'
-
print '有了这个分布,我们就可以计算出P(True|female, 支付宝钱包),其意义就是,在female用户中,支付宝钱包这个属性为True的可能性为'
-
print classifier._feature_probdist.items()[6302][1].prob(True)
-
print '5. 然后你会发现4中输出的P(True|female, 支付宝钱包)并不正好等于77./4910,这是因为使用ELEProbDist'
-
print '也就是“期望相似性概率估计”,这种方法避免了P(True|female, 支付宝钱包)=0情况的出现,从而避免模型失效'
-
print '6. 通过在训练集上的训练,我们得到了以上的概率分布,然后就可以使用训练好的模型来分类了,我们看一下安装了蘑菇街和支付宝钱包的用户是男还是女'
-
print classifier.classify({'蘑菇街':True, '支付宝钱包': True})
-
print '7. 让我们看一下安传过了蘑菇街和支付宝钱包的用户男女的可能性'
-
print 'Prob(female)', classifier.prob_classify({'蘑菇街':True, '支付宝钱包': True}).prob('female')
-
print 'Prob(male)', classifier.prob_classify({'蘑菇街':True, '支付宝钱包': True}).prob('male')
-
print '8. 如果我们的输入中,有一个全新的应用“这个应用不存在”,这里的处理是不处理它'
-
print 'Prob(female)', classifier.prob_classify({'蘑菇街':True, '支付宝钱包': True, '这个应用不存在':True}).prob('female')
-
print 'Prob(male)', classifier.prob_classify({'蘑菇街':True, '支付宝钱包': True, '这个应用不存在':True}).prob('male')
以上程序的输出为:
-
以下是 _label_probdist的相关信息
-
1. 类型
-
<class 'nltk.probability.ELEProbDist'>
-
2. 标签的整体分布状况
-
female male
-
4910 4420
-
3. 由第二步推出的标签的概率分布
-
0.526256564141 0.473743435859
-
********************************
-
以下是 _feature_probdist的相关信息
-
1. 类型
-
<type 'dict'>
-
2. 从1的输出中可以看到其类型为dict,我们看它的一个key和value即可
-
(('female', '\xe6\x94\xaf\xe4\xbb\x98\xe5\xae\x9d\xe9\x92\xb1\xe5\x8c\x85'), <ELEProbDist based on 4910 samples>)
-
3. 从2中可以看到,其代表了,在标签为female的情况下,安装了支付宝钱包这个应用的概率分布
-
None True
-
4833 77
-
4. 3的输出,我们非常熟悉,也就是在所有4910个female用户中,有77个安装了支付宝钱包,没有安装的有4833个
-
有了这个分布,我们就可以计算出P(True|female, 支付宝钱包),其意义就是,在female用户中,支付宝钱包这个属性为True的可能性为
-
0.0157809000204
-
5. 然后你会发现4中输出的P(True|female, 支付宝钱包)并不正好等于77./4910,这是因为使用ELEProbDist
-
也就是“期望相似性概率估计”,这种方法避免了P(True|female, 支付宝钱包)=0情况的出现,从而避免模型失效
-
6. 通过在训练集上的训练,我们得到了以上的概率分布,然后就可以使用训练好的模型来分类了,我们看一下安装了蘑菇街和支付宝钱包的用户是男还是女
-
female
-
7. 让我们看一下安传过了蘑菇街和支付宝钱包的用户男女的可能性
-
Prob(female) 0.994878529146
-
Prob(male) 0.00512147085357
-
8. 如果我们的输入中,有一个全新的应用“这个应用不存在”,这里的处理是不处理它
-
Prob(female) 0.994878529146
-
Prob(male) 0.00512147085357
这样通过使用NLTK,相比自己实现来说有了更简洁的代码,并且更容易维护,希望对有需要的同学有帮助。