高斯混合模型--GMM(Gaussian Mixture Model)




首先,我们先来了解一下,什么是高斯分布。

若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。

若随机变量


   


服从一个位置参数为

   


、尺度参数为

   


的概率分布,且其 概率密度函数




高斯混合分布的分布函数 混合高斯分布公式_机器学习

从上边的这个公式,我们就能知道,高斯分布完全由  和来确定的。

为了能够进一步描述这个关系,我们可以这么表示P(X|,)。

下面我们就讲解什么是高斯混合模型:


我们大家从名字就能大致了解什么是高斯混合模型,没错,就是我们把多个单一的高斯分布,组合在一起,就是高斯混合模型。定义如下:


高斯混合分布的分布函数 混合高斯分布公式_聚类算法_02


高斯混合分布的分布函数 混合高斯分布公式_正态分布_03

高斯混合分布的分布函数 混合高斯分布公式_机器学习_04

高斯混合分布的分布函数 混合高斯分布公式_高斯混合分布的分布函数_05

高斯混合分布的分布函数 混合高斯分布公式_正态分布_06


我们首先要知道GMM是一种聚类的算法,是通过概率的方式,来进行簇的划分,说到这,估计大家会自然想到还有一个比较常用的聚类算法,没错就是你们想的 K-means聚类算法。

这里大致讲解一下K-means的大致思想:

先设置几个类也就是簇K,比如K=3,先为每个簇初始化一个簇中心,我们正常选取的是随机选取一个样本,然后计算每个样本点,到这三个簇中心的欧氏距离,选取样本距离簇中心最近的,就把这个归到这个簇中。



看看两个的区别:

高斯混合分布的分布函数 混合高斯分布公式_正态分布_07

如上图所示:

左边的图:新的样本点不断计算与其他簇中心的距离,右边的图:新的样本点不断计算与其他component的概率。

K-means就是不断迭代相互之间的距离,选取那个最小的距离作为自己的类。而GMM是不断迭代样本点分别属于每个component的概率,选取最大的概率那个作为自己的类