本节书摘来自异步社区《贝叶斯思维:统计建模的Python学习法》一书中的第2章,第2.1节,作者【美】Allen B. Downey,更多章节内容可以访问云栖社区“异步社区”公众号查看
第2章 统计计算
贝叶斯思维:统计建模的Python学习法
2.1 分布
在统计上,分布是一组值及其对应的概率。
例如,如果滚动一个六面骰子,可能的值是数字1至6,与每个值关联的概率是1/6。
再举一个例子,你应该有兴趣了解在日常的英语使用中每个单词出现的次数。你可以建立一个包含每个字及它出现的次数的分布。
为了表示Python中的分布,可以使用一个字典映射某个值和它的概率。我编写了一个名为Pmf的类,利用Python字典实现了上述功能,而且提供了一些有用的方法。为了对应概率质量函数这种分布的数学表示法,我将其命名为Pmf。
Pmf的定义在一个我为本书完成的Python模块thinkbayes.py中。可以从http://thinkbayes.com/thinkbayes.py下载。欲了解更多信息参见前言的“代码指南”。
要使用Pmf,可如下导入:
from thinkbayes.py import Pmf
下面的代码建立一个Pmf来表示六面骰子的结果分布:
pmf = Pmf()
for x in [1,2,3,4,5,6]:
pmf.Set(x,1/6.0)
Pmf创建一个空的没有赋值的pmf。Set方法设置每个值的概率为1/6。
这里是另一个例子,计算每个单词在一个词序列中出现的次数:
pmf = Pmf()
for word in word_list:
pmf.Incr(word, 1)
Incr为每个单词的相应“概率”加1。如果一个词还没有出现在Pmf中,那么就将这个词添加进去。
我把“概率”加上引号是因为在这个例子中概率还没有归一化,也就是说它们的累加和不是1,因此不是真正的概率。但在本例中单词计数与概率成正比。所以当完成了所有的计数,就可以通过除以计数的总值来计算得到概率。
Pmf提供了一种Normalize方法来实现上述功能:
pmf.Normalize()
一旦有一个Pmf对象,你可以像下面这样得到任何一个值相关联的概率:
print pmf.Prob('the')
这会打印输出单词“the”在词序列中出现的频率。
Pmf使用Python字典来存储值及其概率,所以Pmf中的值可以是任意可被哈希的类型。概率可以是任意数值类型,但通常是浮点数(float类型)。