在本篇我们会讨论HMM模型参数求解的问题，这个问题在HMM三个问题里算是最复杂的。在研究这个问题之前，建议先阅读这个系列的前两篇以熟悉HMM模型和HMM的前向后向算法，以及EM算法原理总结，这些在本篇里会用到。在李航的《统计学习方法》中，这个算法的讲解只考虑了单个观测序列的求解，因此无法用于实际多样本观测序列的模型求解，本文关注于如何使用多个观测序列来求解HMM模型参数。

1. HMM模型参数求解概述

　　　　HMM模型参数求解根据已知的条件可以分为两种情况。

　　　　第一种情况较为简单，就是我们已知D个长度为T的观测序列和对应的隐藏状态序列，即{(O1,I1),(O2,I2),...(OD,ID)}是已知的，此时我们可以很容易的用最大似然来求解模型参数。

　　　　假设样本从隐藏状态qi转移到qj的频率计数是Aij,那么状态转移矩阵求得为：

A = [a i j], 其 中 a i j = A i j \sum s = 1 N A i s

　　　　假设样本隐藏状态为qj且观测状态为vk的频率计数是Bjk,那么观测状态概率矩阵为：

B = [b j (k)], 其 中 b j (k) = B j k \sum s = 1 M B j s

　　　　假设所有样本中初始隐藏状态为qi的频率计数为C(i),那么初始概率分布为：

Π = π (i) = C ( i ) \sum s = 1 N C ( s )

　　　　可见第一种情况下求解模型还是很简单的。但是在很多时候，我们无法得到HMM样本观察序列对应的隐藏序列，只有D个长度为T的观测序列，即{(O1),(O2),...(OD)}是已知的，此时我们能不能求出合适的HMM模型参数呢？这就是我们的第二种情况，也是我们本文要讨论的重点。它的解法最常用的是鲍姆-韦尔奇算法，其实就是基于EM算法的求解，只不过鲍姆-韦尔奇算法出现的时代，EM算法还没有被抽象出来，所以我们本文还是说鲍姆-韦尔奇算法。

2. 鲍姆-韦尔奇算法原理

　　　　鲍姆-韦尔奇算法原理既然使用的就是EM算法的原理，那么我们需要在E步求出联合分布P(O,I|λ)基于条件概率P(I|O,λ¯¯¯)的期望，其中λ¯¯¯为当前的模型参数，然后再M步最大化这个期望，得到更新的模型参数λ。接着不停的进行EM迭代，直到模型参数的值收敛为止。

　　　　首先来看看E步，当前模型参数为λ¯¯¯, 联合分布P(O,I|λ)基于条件概率P(I|O,λ¯¯¯)的期望表达式为：

L (λ, λ ¯ ¯ ¯) = \sum I P (I | O, λ ¯ ¯ ¯) l o g P (O, I | λ)

　　　　在M步，我们极大化上式，然后得到更新后的模型参数如下：　

λ ¯ ¯ ¯ = a r g max λ \sum I P (I | O, λ ¯ ¯ ¯) l o g P (O, I | λ)

　　　　通过不断的E步和M步的迭代，直到λ¯¯¯收敛。下面我们来看看鲍姆-韦尔奇算法的推导过程。

3. 鲍姆-韦尔奇算法的推导

　　　　我们的训练数据为{(O1,I1),(O2,I2),...(OD,ID)}，其中任意一个观测序列Od={o(d)1,o(d)2,...o(d)T},其对应的未知的隐藏状态序列表示为：Id={i(d)1,i(d)2,...i(d)T}

　　　　首先看鲍姆-韦尔奇算法的E步，我们需要先计算联合分布P(O,I|λ)的表达式如下：

P (O, I | λ) = \prod d = 1 D π i (d) 1 b i (d) 1 (o (d) 1) a i (d) 1 i (d) 2 b i (d) 2 (o (d) 2) . . . a i (d) T - 1 i (d) T b i (d) T (o (d) T)

　　　　我们的E步得到的期望表达式为：

L (λ, λ ¯ ¯ ¯) = \sum I P (I | O, λ ¯ ¯ ¯) l o g P (O, I | λ)

　　　　在M步我们要极大化上式。由于P(I|O,λ¯¯¯)=P(I,O|λ¯¯¯)/P(O|λ¯¯¯),而P(O|λ¯¯¯)是常数，因此我们要极大化的式子等价于：

λ ¯ ¯ ¯ = a r g max λ \sum I P (O, I | λ ¯ ¯ ¯) l o g P (O, I | λ)

　　　　我们将上面P(O,I|λ)的表达式带入我们的极大化式子，得到的表达式如下：

λ ¯ ¯ ¯ = a r g max λ \sum d = 1 D \sum I P (O, I | λ ¯ ¯ ¯) (l o g π i 1 + \sum t = 1 T - 1 l o g a i t a i t + 1 + \sum t = 1 T b i t (o t))

　　　　我们的隐藏模型参数λ=(A,B,Π),因此下面我们只需要对上式分别对A,B,Π求导即可得到我们更新的模型参数λ¯¯¯　

　　　　首先我们看看对模型参数Π的求导。由于Π只在上式中括号里的第一部分出现，因此我们对于Π的极大化式子为：

π i ¯ ¯ ¯ ¯ ¯ = a r g max π i 1 \sum d = 1 D \sum I P (O, I | λ ¯ ¯ ¯) l o g π i 1 = a r g max π i \sum d = 1 D \sum i = 1 N P (O, i (d) 1 = i | λ ¯ ¯ ¯) l o g π i

　　　　由于πi还满足∑i=1Nπi=1，因此根据拉格朗日子乘法，我们得到πi要极大化的拉格朗日函数为：

a r g max π i \sum d = 1 D \sum i = 1 N P (O, i (d) 1 = i | λ ¯ ¯ ¯) l o g π i + γ (\sum i = 1 N π i - 1)

　　　　其中，γ为拉格朗日系数。上式对πi求偏导数并令结果为0，我们得到：

\sum d = 1 D P (O, i (d) 1 = i | λ ¯ ¯ ¯) + γ π i = 0

　　　　令i分别等于从1到N，从上式可以得到N个式子，对这N个式子求和可得：

\sum d = 1 D P (O | λ ¯ ¯ ¯) + γ = 0

　　　　从上两式消去γ,得到πi的表达式为：

π i = \sum d = 1 D P ( O , i ( d ) 1 = i | λ ¯ ¯ ¯ ) \sum d = 1 D P ( O | λ ¯ ¯ ¯ ) = \sum d = 1 D P ( O , i ( d ) 1 = i | λ ¯ ¯ ¯ ) D P ( O | λ ¯ ¯ ¯ ) = \sum d = 1 D P ( i ( d ) 1 = i | O , λ ¯ ¯ ¯ ) D = \sum d = 1 D P ( i ( d ) 1 = i | O ( d ) , λ ¯ ¯ ¯ ) D

　　　　利用我们在隐马尔科夫模型HMM（二）前向后向算法评估观察序列概率里第二节中前向概率的定义可得：

P (i (d) 1 = i | O (d), λ ¯ ¯ ¯) = γ (d) 1 (i)

　　　　因此最终我们在M步πi的迭代公式为：

π i = \sum d = 1 D γ ( d ) 1 ( i ) D

　　　　现在我们来看看A的迭代公式求法。方法和Π的类似。由于A只在最大化函数式中括号里的第二部分出现，而这部分式子可以整理为：

\sum d = 1 D \sum I \sum t = 1 T - 1 P (O, I | λ ¯ ¯ ¯) l o g a i t a i t + 1 = \sum d = 1 D \sum i = 1 N \sum j = 1 N \sum t = 1 T - 1 P (O, i (d) t = i, i (d) t + 1 = j | λ ¯ ¯ ¯) l o g a i j

　　　　由于aij还满足∑j=1Naij=1。和求解πi类似，我们可以用拉格朗日子乘法并对aij求导，并令结果为0，可以得到aij的迭代表达式为：

a i j = \sum d = 1 D \sum t = 1 T - 1 P ( O ( d ) , i ( d ) t = i , i ( d ) t + 1 = j | λ ¯ ¯ ¯ ) \sum d = 1 D \sum t = 1 T - 1 P ( O ( d ) , i ( d ) t = i | λ ¯ ¯ ¯ )

　　　　利用隐马尔科夫模型HMM（二）前向后向算法评估观察序列概率里第二节中前向概率的定义和第五节ξt(i,j)的定义可得们在M步aij的迭代公式为：

a i j = \sum d = 1 D \sum t = 1 T - 1 ξ ( d ) t ( i , j ) \sum d = 1 D \sum t = 1 T - 1 γ ( d ) t ( i )

　　　　现在我们来看看B的迭代公式求法。方法和Π的类似。由于B只在最大化函数式中括号里的第三部分出现，而这部分式子可以整理为：

\sum d = 1 D \sum I \sum t = 1 T P (O, I | λ ¯ ¯ ¯) l o g b i t (o t) = \sum d = 1 D \sum j = 1 N \sum t = 1 T P (O, i (d) t = j | λ ¯ ¯ ¯) l o g b j (o t)

　　　　由于bj(ot)还满足∑k=1Mbj(ot=vk)=1。和求解πi类似，我们可以用拉格朗日子乘法并对bj(k)求导，并令结果为0，得到bj(k)的迭代表达式为：

b j (k) = \sum d = 1 D \sum t = 1 T P ( O , i ( d ) t = j | λ ¯ ¯ ¯ ) I ( o ( d ) t = v k ) \sum d = 1 D \sum t = 1 T P ( O , i ( d ) t = j | λ ¯ ¯ ¯ )

　　　　其中I(o(d)t=vk)当且仅当o(d)t=vk时为1，否则为0. 利用隐马尔科夫模型HMM（二）前向后向算法评估观察序列概率里第二节中前向概率的定义可得bj(ot)的最终表达式为：

b j (k) = \sum d = 1 D \sum t = 1 , o ( d ) t = v k T γ ( d ) t ( i ) \sum d = 1 D \sum t = 1 T γ ( d ) t ( i )

　　　　有了πi,aij,bj(k)的迭代公式，我们就可以迭代求解HMM模型参数了。

4. 鲍姆-韦尔奇算法流程总结

　　　　这里我们概括总结下鲍姆-韦尔奇算法的流程。

　　　　输入： D个观测序列样本{(O1),(O2),...(OD)}

　　　　输出：HMM模型参数

　　　　1)随机初始化所有的πi,aij,bj(k)

　　　　2) 对于每个样本d=1,2,...D，用前向后向算法计算γ(d)t(i)，ξ(d)t(i,j),t=1,2...T

　　　　3) 更新模型参数：

π i = \sum d = 1 D γ ( d ) 1 ( i ) D

a i j = \sum d = 1 D \sum t = 1 T - 1 ξ ( d ) t ( i , j ) \sum d = 1 D \sum t = 1 T - 1 γ ( d ) t ( i )

b j (k) = \sum d = 1 D \sum t = 1 , o ( d ) t = v k T γ ( d ) t ( i ) \sum d = 1 D \sum t = 1 T γ ( d ) t ( i )

　　　　4) 如果πi,aij,bj(k)的值已经收敛，则算法结束，否则回到第2）步继续迭代。

　　　　以上就是鲍姆-韦尔奇算法的整个过程。

本文转自刘建平Pinard博客园博客，原文链接：http://www.cnblogs.com/pinard/p/6972299.html，如需转载请自行联系原作者

隐马尔科夫模型HMM（三）鲍姆-韦尔奇算法求解HMM参数

1. HMM模型参数求解概述

2. 鲍姆-韦尔奇算法原理

3. 鲍姆-韦尔奇算法的推导

4. 鲍姆-韦尔奇算法流程总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景