1.聚类简介

主要思想就是对一堆未标记的样本,进行相似度度量,然后进行分簇的过程。

ps:聚类属于无监督学习。

2.样本距离的度量

闵可夫斯基距离:

EM是无监督聚类还是有监督 无监督熵聚类是什么_特征向量

ps:当p = 负无穷时,公式变为样本特征差值最小的绝对值,(可以提出最小项,然后化简得出)。

ps:当p = 1时,公式变为样本特征之间距离绝对值求和,又称曼哈顿距离。

ps:当p = 2时,公式变为欧氏距离。(最熟悉的一种)

ps:当p = 正无穷时,公式变为样本特征差值最大的绝对值,(还是提出最大项,然后化简得出)切比雪夫距离。

杰卡德相似系数:(交并集)

                                                      

EM是无监督聚类还是有监督 无监督熵聚类是什么_聚类_02

ps:样本集交集个数和样本集并集个数的比值

余弦相似度:

EM是无监督聚类还是有监督 无监督熵聚类是什么_聚类_03

一般用于计算文本相似度。当Pearson相似系数的Ux = Uy = 0时,X和Y不相关,退化为余弦相似度。

ps:可以看成是归一化/标准化过的欧氏距离。

相关系数:

EM是无监督聚类还是有监督 无监督熵聚类是什么_MSE_04

它的值代表X和Y线性相关的程度。

ps:当值为0时,X和Y是线性不相关,他们之间一定不存在线性关系,但是可能存在其他关系。

相对熵:(K-L距离,交叉熵)

EM是无监督聚类还是有监督 无监督熵聚类是什么_EM是无监督聚类还是有监督_05

ps:衡量了两个随机变量的相对距离。

3.K-Means算法

思想:先初始化K个簇中心点,在计算一个样本点与K个簇之间的距离,选出最小的距离的簇,把该样本归为次簇,在对其他样本点进行相似的操作,在计算每个簇所有样本点的均值更新簇的中心点,重复这整个过程直到中心距离达到收敛。

ps:有EM算法的理论支撑,所以是有理论依据证明模型的准确性,并且可以达到收敛。

ps:初始化参数后,先求隐变量的概率,对模型求期望,然后在对模型求最大进行更新参数,一直迭代直到收敛。

ps:k-means的隐变量可以看成距离簇的距离有K个,通过迭代模型的参数来不断的更新隐变量的值,进而对样本进行聚类。

初值敏感:初值的不同选择,可能会得出不同的聚类结果,所以初值的选取很重要,一种思想是:随机初始化K个样本点为簇的中心点。另一种思想是:先随机选取一个样本点为第一个簇中心,然后计算其他样本点距离此簇的距离,对距离进行加权(越远权值越高),然后随机选取一个样本点为第二个簇中心点,重复这一过程K-1次即可。

ps:初值中心点的选取对算法的影响很大。

ps:此改进是K-means++对原算法的改进。

K值的选择:聚类的簇数量不同也会对结果产生不同的影响,一般情况:是根据先验知识进行选择。另一种情况:定义均方误差函数(MSE),对每个簇计算误差(样本点减去簇中心点的平方在加和),在对每个簇进行加和,即为不同K值下的MSE,可以得出MSE的值随着K值的增大会趋近于0。(利用极限思想当K值为样本点数时,值不就是0嘛,起始点k=1时MSE最大)

ps:一般为业务驱动选取;可以基于MSE下降的幅度来确定。

ISODATA的K值自选择:当簇内的样本过少就去掉此簇,当簇内样本过多找切分点进行二分让均方误差最小化。

ps:可以基于模型的k值选取方式。一种自组织数据的算法。

根据我画的图在理解下:

EM是无监督聚类还是有监督 无监督熵聚类是什么_聚类_06

k-means的终止条件:当簇的中心点的值在一定范围内不再变化;当MSE在一定范围内不再变化;在迭代一定次数下。

4.层次聚类

凝聚的层次聚类:自底向上进行簇的合并,直到达到指定的簇数量。

度量准则:可以用簇之间的最小距离或者最大距离来衡量,可以用平均距离(i*j个样本之间距离加和,在进行归一化),可以用MSE(两两判断合并之后最小的MSE,选择最优的进行合并即可)。

分裂的层次聚类:自上向下进行簇的分割,直到达到指定的簇数量。评判准则可以同上!

5.密度聚类

DBSCAN聚类:

发现密度相连的点的最大集合,这个集合就是对应的簇!

ps:可以不用设置K值,可以使用超参数来控制簇的数量。

ps:基于密度,可以发现任意形状的类簇。

ps:可以发现异常点/噪声点,比如说簇内的点数比较少这种。

EM是无监督聚类还是有监督 无监督熵聚类是什么_特征向量_07

-邻域:一个半径为

EM是无监督聚类还是有监督 无监督熵聚类是什么_聚类_08

的圆形面积。

核心对象:样本i在邻域内的样本个数大于等于M个那么样本i为核心对象。

密度直达:在以核心对象为邻域内的样本点,这范围内的样本点为密度直达。

密度可达:在一个序列p1,p2....pn里,如果pi+1以pi密度直达,那么pn则以p1密度可达。(p1到pn-1都是核心对象)

ps:密度可达有没有类似于一种并查集的算法呢,可以实现路径压缩,加快算法效率。

密度相连:存在一个对象o,使得p和q都是从o结束密度可达的,那么p和q就是密度相连。

ps:一对密度可达,尝试在进行合并的过程。p到o密度可达,q到o也是密度可达,那么p和q就是密度相连。

6.谱聚类(可以先不瞅)

谱聚类是一种基于图论的聚类方法,通过对样本数据的拉普拉斯矩阵的特征向量进行选择,在以此对样本数据进行聚类。

定义邻接相似度矩阵:可用全连接图/

EM是无监督聚类还是有监督 无监督熵聚类是什么_MSE_09

近邻图/K近邻图构建相似度图,在构建该图的邻接矩阵(n*n维)。

定义度矩阵(对角阵):顶点的度为第i个顶点在第j行的权重和,(n*n维)

定义拉普拉斯矩阵:未正则化的拉普拉斯矩阵(L = D - W);对称的拉普拉斯矩阵

EM是无监督聚类还是有监督 无监督熵聚类是什么_EM是无监督聚类还是有监督_10

; 随机游走的拉普拉斯矩阵:

EM是无监督聚类还是有监督 无监督熵聚类是什么_MSE_11

;特征向量和特征值的计算:

EM是无监督聚类还是有监督 无监督熵聚类是什么_聚类_12

  , 

EM是无监督聚类还是有监督 无监督熵聚类是什么_特征向量_13

就相当于一个系数,

EM是无监督聚类还是有监督 无监督熵聚类是什么_EM是无监督聚类还是有监督_14

为第i个特征向量,

EM是无监督聚类还是有监督 无监督熵聚类是什么_EM是无监督聚类还是有监督_15

为特征值!(注意矩阵乘一个向量的结果就是一个向量)

最后按选择的前K个特征向量代表K个簇,对降维后的矩阵(n*k维)使用K-Means将样本点聚类成K个簇

小思考:一般先验的直接用随机游走的拉普拉斯矩阵。这种降维的思路跟PCA很像,其实就是我们可以通过舍去一些不太重要的特征,结果却变得更好了,说明我们不一定需要将特征搞的很多,维度变得很大,效果不一定好,是可以考虑筛选出一些很强的特征(规则)结果或许大不一样!