高斯混合模型--GMM(Gaussian Mixture Model)
首先,我们先来了解一下,什么是高斯分布。
若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。
若随机变量
服从一个位置参数为
、尺度参数为
的概率分布,且其 概率密度函数
为
从上边的这个公式,我们就能知道,高斯分布完全由 和来确定的。
为了能够进一步描述这个关系,我们可以这么表示P(X|,)。
下面我们就讲解什么是高斯混合模型:
我们大家从名字就能大致了解什么是高斯混合模型,没错,就是我们把多个单一的高斯分布,组合在一起,就是高斯混合模型。定义如下:
我们首先要知道GMM是一种聚类的算法,是通过概率的方式,来进行簇的划分,说到这,估计大家会自然想到还有一个比较常用的聚类算法,没错就是你们想的 K-means聚类算法。
这里大致讲解一下K-means的大致思想:
先设置几个类也就是簇K,比如K=3,先为每个簇初始化一个簇中心,我们正常选取的是随机选取一个样本,然后计算每个样本点,到这三个簇中心的欧氏距离,选取样本距离簇中心最近的,就把这个归到这个簇中。
看看两个的区别:
如上图所示:
左边的图:新的样本点不断计算与其他簇中心的距离,右边的图:新的样本点不断计算与其他component的概率。
K-means就是不断迭代相互之间的距离,选取那个最小的距离作为自己的类。而GMM是不断迭代样本点分别属于每个component的概率,选取最大的概率那个作为自己的类