02 EM算法 - K-means算法回顾、EM概述-阿里云开发者社区

02 EM算法 - K-means算法回顾、EM概述

2018-12-27 1532

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

01 EM算法 - 大纲 - 最大似然估计(MLE)、贝叶斯算法估计、最大后验概率估计(MAP)

__K-means算法回顾__：03 聚类算法 - K-means聚类
__K-means算法__，也称为k-均值聚类算法，是一种非常广泛使用的聚类算法之一。

假定输入样本为S=x1,x2,x3,...,xm,则算法步骤为：
1、选择初始的k个簇中心点μ₁,μ₂,...,μ_k；
2、将样本Xi标记为距离簇中心最近的簇: label_i;

3、迭代处理所有样本数据，计算出各个样本点所属的对应簇。
4、更新簇中心点坐标：μ_i；
5、重复上述三个操作(2~4)，直到算法收敛。

算法收敛条件：迭代次数/簇中心变化率/MSE/MAE。

几何意义

猜测有k个分类，每个分类对应的坐标是¼。使以此标准分类出来的预测结果和真实分类的误差最小

回到这个损失函数J(k，μ) ，我们的目的是将样本分成k个类，即样本中有k个隐藏的类别，而这k个类别是什么我不知道。我想找到这k个分类的坐标，利用这些坐标将样本集X进行划分。

EM的思想是，首先我先假定几个目标分类，但如何知道这些假定的分类是否正确？

我们使用样本的极大似然估计进行度量，如果找到的分类坐标能够让 P(预测结果=真实结果 | k) ,如果能够找到 k=y 让__P(预测结果=真实结果)__最大，那么说明y就是我们的最佳类别。而事实上我们知道，P(预测结果=真实结果)不仅仅依赖于分类的个数k=y，还依赖于分类点的初始值μ或等等其他因素。

我们就可以先固定k=y，然后调整μ的参数。在调整μ的过程中，我们可以获得一个更好的k值的选择。

最后重新指定k=y^new的作为初始值，再反复迭代计算 __P(预测结果=真实结果 | k)__的最大值，选择更好的y值。即我调整的是每一次K-means算法的初始聚类中心点，然后来找到最优的分类结果。

上述过程有几个难点：
第一，如何指定k=y？是每种分类的划分都取相同的概率，还是不同分类结果有不同的概率？这种度量方式我们不知道。
第二，如何调正参数才能让最终的P(预测结果=真实结果|k,....)最大？

EM算法分为两步：
1、E - expectation 期望：估计出隐藏类别y的期望值。
2、M - Maximization 最大化：调整其他参数，使得在隐藏类别y的情况下能够达到最大值(极大似然估计)，然后在其他参数确定的情况下，重新估计隐藏类别y的期望值。$color{red}{M步就是先算极大似然估计，然后更新期望值。}$
....

四、EM算法引入

EM算法举例：

公司有男同事=[A，B，C]，同时有很多漂亮的女职员=[小甲，小章，小乙]。（请勿对号入座）你迫切的怀疑这些男同事跟这些女职员有“问题”。为了科学的验证你的猜想，你进行了细致的观察。于是：

观察数据：
1、A，小甲、小乙一起出门了；
2、B，小甲、小章一起出门了；
3、B，小章、小乙一起出门了；
4、C，小乙一起出门了；

收集到了数据，你开始了神秘的EM计算。

__初始化：__你觉得三个同事一样帅，一样有钱，三个美女一样漂亮，每个人都可能跟每个人有关系。所以，每个男同事跟每个女职员“有问题”的概率都是1/3;

EM算法中的__E步骤__：
1、A跟小甲出去过了 1/2 * 1/3 = 1/6 次，跟小乙也出去了1/6次；
2、B跟小甲，小章也都出去了1/6次；
3、B跟小乙，小章又出去了1/6次；
4、C跟小乙出去了1/3次；

总计：
A跟小甲出去了1/6次，跟小乙也出去了1/6次 ;
B跟小甲，小乙出去了1/6次，跟小章出去了1/3次；
C跟小乙出去了1/3。

EM算法中的__M步骤__ - 你开始__更新__你的八卦：
A跟小甲，小乙有问题的概率都是1/6 / (1/6 + 1/6) = 1/2；
B跟小甲，小乙有问题的概率是1/6 / (1/6+1/6+1/6+1/6) = 1/4;
B跟小章有问题的概率是(1/6+1/6)/(1/6 * 4) = 1/2;
C跟小乙有问题的概率是1。

EM算法中的__E步骤__ - 然后你又开始根据最新的概率计算了。
1、A跟小甲出去了 1/2 * 1/2 = 1/4 次，跟小乙也出去 1/4 次；
2、B跟小甲出去了1/2 1/4 = 1/8 次，跟小章出去了 1/2 1/2 = 1/4 次；
3、B跟小乙出去了1/2 1/4 = 1/8 次，跟小章又出去了 1/2 1/2 = 1/4 次；
4、C跟小乙出去了1次；

EM算法中的__M步骤__ - 重新反思你的八卦：
A跟小甲，小乙有问题的概率都是1/4/ (1/4 + 1/4) = 1/2；
B跟小甲，小乙是 1/8 / (1/8 + 1/4 + 1/4 + 1/8) = 1/6 ;
B跟小章是 2/3 ;
C跟小乙的概率是1。

你继续计算，反思，总之，最后，你得到了真相。

通过上面的计算我们可以得知，EM算法实际上是一个不停迭代计算的过程，根据我们事先估计的先验概率A，得出一个结果B，再根据结果B，再计算得到结果A，然后反复直到这个过程收敛。

可以想象饭店的后方大厨，炒了两盘一样的菜，现在，菜炒好后从锅中倒入盘，不可能一下子就分配均匀，所以先往两盘中倒入，然后发现B盘菜少了，就从A中匀出一些，A少了，从B匀.....