GMM模型及代码实现

上一篇EM算法中提到了李航的统计学习方法，但是没有说明书中的公式推导和Andrew Ng的区别，本文先说明两者的异同点，再说明怎样计算GMM模型和参数计算。如果你看懂了EM算法的原理，GMM模型就很好理解。但是我菜，我不会矩阵求导，式子列出来了，我解不出来，看了半天资料，才勉强看懂。

EM算法(李航统计学习方法版本)

面对一个含有隐变量的概率模型，目标是极大化观测数据（不完全数据）Y关于参数$\theta$的对数似然函数，及最大化：

$L(\theta)=logP(Y|\theta)=log \sum_Z P(Y,Z|\theta)=log(\sum_Z P(Y|Z,\theta)P(Z|\theta)) \tag{1}$

有人可能有疑问，为什么这个式子和Andrew Ng推导的式子不同。其实是一样的，只不过，他这里没将$Y$展开，$Y$代表整个样本集。接下来的推导思路就不同了。

因为我们要通过迭代逐步极大化 $L(\theta)$ ，假设在第i次迭代后 $\theta$ 的估计值是 $\theta^{(i)}$ ，我们希望新的估计值 $\theta$ 能使 $L(\theta)$ 增加，即 $L(\theta)>L(\theta^{(i)})$ ，并逐步达到极大值，为此，我们考虑两者的差：

$L(\theta)-L(\theta^{(i)})=log(\sum_Z P(Y|Z,\theta)P(Z|\theta))-logP(Y|\theta^{(i)}) \tag{2}$

利用Jensen不等式得到其下界：

$L(\theta)-L(\theta^{(i)})=log(\sum_Z P(Y|Z, \theta^{(i)}) \frac {P(Y|Z,\theta)P(Z|\theta)}{P(Y|Z, \theta^{(i)})}) - logP(Y|\theta^{(i)}) \\ \ge \sum_Z P(Y|Z, \theta^{(i)}) log(\frac {P(Y|Z,\theta)P(Z|\theta)}{P(Y|Z, \theta^{(i)})}) - logP(Y|\theta^{(i)}) \\ =\sum_Z P(Y|Z, \theta^{(i)}) log(\frac {P(Y|Z,\theta)P(Z|\theta)}{P(Y|Z, \theta^{(i)})P(Y|\theta^{(i)})}) \tag{3}$

令：$$B(\theta, \theta^{(i)})=L(\theta^{(i)})+\sum_Z P(Z

Y,\theta^{(i)})log \frac{P(Y

Z,\theta)P(Z

\theta)}{P(Z

Y,\theta^{(i)})P(Y

\theta^{(i)})} \tag{4}$$

则有：

$L(\theta) \ge B(\theta, \theta^{(i)}) \tag{5}$

即 $B(\theta, \theta^{(i)})$ 是 $L(\theta)$ 的一个下界，而且由 $(4)$ 式知道 $L(\theta^{(i)})=B(\theta^{(i)}, \theta^{(i)})$ 。将 $\theta$ 替换成 $\theta^{(i)}$ ， $\frac {P(Y|Z,\theta^{(i)})P(Z|\theta^{(i)})}{P(Z|Y, \theta^{(i)})P(Y|\theta^{(i)})}$ 将条件概率展开，就能知道分母和分子相同，也就是说这个式子等于1。

因此，任何可以使 $B(\theta, \theta^{(i)})$ 增大的 $\theta$ ，也可以式 $L(\theta)$ 增大。也就是说选择 $\theta^{(i+1)}$ 使 $B(\theta, \theta^{(i)})$ 达到极大，即：

$\theta^{(i+1)}=argmax_{\theta}B(\theta, \theta^{(i)}) \tag{6}$

现在来求 $\theta^{(i+1)}$ 的表达式：

$\theta^{(i+1)} = argmax_{\theta}(L(\theta^{(i)}) + \sum_Z P(Y|Z, \theta^{(i)}) log(\frac {P(Y|Z,\theta)P(Z|\theta)}{P(Y|Z, \theta^{(i)})P(Y|\theta^{(i)})})) \\ = argmax_{\theta}(\sum_Z P(Y|Z, \theta^{(i)}) log(P(Y|Z,\theta)P(Z|\theta))) \\ = argmax_{\theta}(\sum_Z P(Y|Z, \theta^{(i)}) log(P(Y,Z|\theta))) \\ =argmax_{\theta}Q(\theta, \theta^{(i)})) \tag{7}$

书中对 $Q$ 函数的定义和Andrew Ng的定义有些不同。后者的定义是隐含变量的后验概率，它是后者 $Q$ 函数的一部分。我参看华校专《python大战机器学习》中的定义，它的物理意义是：完全数据的对数似然函数 $logP(Y,Z;\theta)$ 关于某个分布的期望。该分布就是 $Z$ 的真实条件概率的一个近似，由 $P(Y|Z, \theta^{(i)})$ 给出。再来分析一下最后求解 $\theta^{(i+1)}$ 的表达式，将Andrew Ng的式子中分母的 $Q$ 函数（因为 $\theta$ 确定，Q函数就确定了），两者就是相同的。最后，我给出算法流程：

Repeat until convergence{

(E-step)for dataset Y, set:

$Q(\theta, \theta^{(i)}) = \sum_Z P(Y|Z, \theta^{(i)}) log(P(Y,Z|\theta)).$

(M-step)Set:

$\theta^{(i+1)}=argmax_{\theta}Q(\theta, \theta^{(i)})).$

}

总的来说，两个思路是差不多的，都是想办法极大化似然函数，巧妙的运用了Jensen不等式，不同就是 $Q$ 函数的定义，我目前也不知道那种被公认，或者两者都是自己定义的，没有一个公认的说法。

GMM模型（高斯混合模型）

我们有训练集 ${x^{(1)}, x^{(2)}, x^{(3)}, x^{(4)}...}$ ，现在需要对训练集聚类，聚类是无监督学习，因此不需要标签。我们假设训练集的数据服从联合高斯分布，这个假设是合理的，因为自然中的数据大多符合高斯分布。现在我们来建模：

$P(x|\theta) = \sum_{k=1}^{K} \alpha_k p(x|\theta_k) \tag{8}$

其中 $K$ 代表高斯混合成分，即训练集由 $K$ 高斯分布组合而成， $\alpha_k$ 代表高斯分布的权重； $p(x|\theta_k)$ 代表高斯分布密度， $\theta_k=(\mu_k, \Sigma_k)$ ，即代表高斯分布均值和协方差。一维高斯分布到多维高斯分布的理解，参考jermmy。

我们来理解一下数据产生的过程，首先依概率 $\alpha_k$ 选择第k个高斯分布分模型 $p(x|\theta_k)$ ；然后依第k个分模型的概率分布生成观测数据 $x_j$ 。理解了数据产生过程后，我们要找出隐含变量，观测数据是已知的，但是观测数据来自哪个分模型是未知的，我们假设隐含变量为 $\gamma_{jk}$ ，定义如下：

$\gamma_{jk}=\begin{cases} 1, & \text{第$j$个观测来自第$k$个分模型} \\ 0, & \text{否则} \end{cases} j=1,2,...,N; k=1,2,...,K \tag{9}$

$\gamma_{jk}$ 是0-1随机变量，它为1的概率就是后验概率。接下来，我们来推导参数更新的式子，这里我按照Andrew Ng的算法流程来推导，因为我觉得他思路的比较清晰，先求隐变量的后验概率，再最大化似然函数，而李航的书中，是直接求似然函数，再最大化。

E步：

$w_{jk}=Q_j(\gamma_k)=P(\gamma_k|x=x_j;\alpha^{(i)},\theta^{(i)}) \tag{10}$

又有：

$w_{jk}=\frac {a_k^{(i)}P(x_j|\theta^{(i)})} {\sum_{m=1}^K a_m^{(i)}P(x_j|\theta^{(i)})} \tag{11}$

M步:

$\sum_{j=1}^{N} \sum_{k=1}^{K} Q_j(\gamma_k) log \frac{p(x_i|\gamma_{jk}=1;\theta)p(\gamma_{jk}=1; \alpha)}{Q_j(\gamma_k)}=\sum_{j=1}^{N} \sum_{k=1}^{K} w_{jk} log \frac{\frac{1}{(2\pi)^{d/2}|\Sigma_j|^{1/2}}exp(-\frac{1}{2}(x_j-\mu_k)^T \Sigma_k^{-1}(x_j-\mu_k))\dot \alpha_k}{Q_j(\gamma_k)} \tag{12}$

现在我们对上式求导，来解出 $\mu_k^{(i+1)}, \Sigma_k^{(i+1)}, \alpha_k^{(i+1)}$ ，我们一步步求导(靠，这公式真的难敲)，建议先看一下长躯鬼侠的矩阵求导术，特别是例四例五。好了，我相信你看懂了，我就不求导了，太难了。我给出最后结果：

$\mu_k^{(i+1)}=\frac{\sum_{j=1}^N w_{jk}x_j}{\sum_{j=1}^N w_{jk}} \\ \Sigma_k^{(i+1)}=\frac{\sum_{j=1}^N w_{jk}(x_j-\mu_k^{(i+1)})(x_j-\mu_k^{(i+1)})^T}{\sum_{j=1}{N}w_{jk}} \\ \alpha_k^{(i+1)}=\frac{\sum_{j=1}^N w_{jk}}{N} \\ k=1,2,...,K \tag{13}$

$\mu_k^{(i+1)}, \Sigma_k^{(i+1)}$ 只需要对 $(12)$ 求导就可以了， $\alpha_k^{(i+1)}$ 需要引入拉格朗日乘子来解决，参考Andrew Ng。另外注意到， $\Sigma_k^{(i+1)}$ 式中是 $\mu_k^{(i+1)}$ ，它这里采用了贪心的策略来极大化似然函数。

如果你看过李航统计学习方法和Andrew Ng的资料的话，你看能会想 $\hat{\gamma}_{jk}$ 和 $w_{jk}$ 之间有什么区别，其实它们是一样的。先来看看它们各自的意义，前者是 $\gamma_{jk}$ 的期望，后者是 $x_j$ 属于第$k$个分模型的概率，由于是0-1分布，这个概率就是期望。

GMM模型的应用

这里我主要说一下，它在说话人识别中的应用，代码可参见github。对于语音材料，我们首先预处理，分帧、预加重，然后提取语音特征，常用的MFCC特征，一帧语音提取13维特征。对于每一个人，我们都有了大量的数据。然后，我们对每一个人训练一个GMM模型，有n个人，就有n个模型，模型的高斯混合成分由valid数据集确定。测试阶段，对于一个新的语音，我们将它代入每一个模型，都会得到一个后验概率，概率越大，表示这段语音属于这个人的概率越大。

$p(people|signal)=\frac{p(singal/people)p(people)}{p(signal)}$

其中 $p(signal)$ 不用求解， $p(people)$ 是均匀分布，因此先验概率的大小就代表了后验概率的大小。

总结

本篇博客，先说明了李航统计学习方法中EM算法，比较了两者的异同。后又利用EM算法求解GMM模型的参数。后续，我会用python写一套代码求解GMM模型，有兴趣的话可以先参考medium和huangyc

Reference

https://towardsdatascience.com/gaussian-mixture-modelling-gmm-833c88587c7f https://www.cnblogs.com/huangyc/p/10274881.html https://zhuanlan.zhihu.com/p/24709748 http://cs229.stanford.edu/notes-spring2019/cs229-notes8-2.pdf 李航：统计学习方法华校专：python大战机器学习

My Blog

Work hard, play hard !

GMM模型及代码实现

EM算法(李航统计学习方法版本)

GMM模型（高斯混合模型）

GMM模型的应用

总结

Reference