PRML第一章读书小结
第一章用例子出发,较为简单的引入了概率论、模型、决策、损失、信息论的问题,作为机器学习从业者,读PRML除了巩固已有基础,还受到了很多新的启发,下面将我收到的启发总结如下。
1. 多项式曲线拟合问题
多项式拟合问题作为全书的第一个引例,通过此说明了很多关键的概念。
正则化后的进行多项式拟合效果就能达到一个理想的值。
之后,作者在重新考察曲线拟合问题时,提到了最大化似然函数和最小化平方和误差函数,而最大化后验概率等价于最小化正则化的误差函数。
2. 概率论
文章首先通过简单的例子说明了概率论的基本思想,然后表示了概率论的两条基本规则:
2.1 概率论之贝叶斯学派和频率学派
频率学派试图从自然的角度出发,试图直接为事件建模,即事件A在独立重复实验中发生的频率趋于极限P,那么这个极限就是事件的概率。
贝叶斯学派并不试图刻画事件本身,而是从观察者角度。贝叶斯学派并不认为事件本身是随机的,而是从观察者知识不完备这一出发点开始,构造一套贝叶斯概率论的框架下可以对不确定知识作出推断的方法。即不认为事件本身具有某种客观的随机性,而只是观察者不知道事件的结果。
频率学派广泛使用极大似然进行估计,使得似然函数p(D|w)达到最大。贝叶斯学派广泛使用先验概率。
补充:根据知乎某大佬所言:频率学派和贝叶斯学派最大差别是产生在对参数空间的认知上。频率学派并不关心参数空间的所有细节,而相信数据都是在某个参数值下产生的,所以频率学派从“那个值最有可能是真实值”出发的。有了极大似然和置信区间。贝叶斯学派关心参数空间的每一个值,我们又没有上帝视角,怎么可能知道哪个值是真的,参数空间的每个值都有可能是真实模型使用的值,只是概率不同。
参考:https://www.zhihu.com/question/20587681
2.2 高斯分布
高斯分布算是模式识别里面的重点难点,在第一章里面简要介绍了其一些简单性质,总结如下:
高斯分布的极大似然估计对均值的估计是无偏的,对方差的估计是有偏的(低估)。
3.模型选择
在曲线拟合中,存在一个最优的多项式阶数。实际情况中,我们可能存在多个控制模型复杂度的参数,同时存在过拟合现象,所以我们需要一个验证集。而数据有限,所以需要交叉验证,S-1组进行训练,1组进行评估,运行S次。但是存在一个问题就是训练本身很耗时。
4. 维数灾难
随着维数的变高,我们需要指数级的训练数据。对于高维数据,高斯分布的概率质量集中在薄球壳上。这对我们的模型产生了极大地困难。
5. 决策论
- 最小化错误分类率。把每个点分在后验概率最大的类别中,那么我们分类错误的概率就会最小。
- 最小化期望损失。损失函数(代价函数)最小。
- 拒绝选项。对于低于阈值的概率,拒绝作出识别,拒绝决策带来的损失可以放在损失矩阵中。
6.信息论
7. 一些小的知识点:
- 严格凸函数:每条弦位于函数图像上方,即二阶导数为正
- 变分法
- 高维空间中,球的大部分体积都聚集在表面附近。
- 具体化一个连续变量需要大量比特位。