聚类分析
- 距离聚类的概念
- 物以类聚
- 相似性的含义
- 相似度测度和聚类准则
- 相似性测度
- 欧氏(Euclid)距离
- 马氏(Maharanobis)距离
- 明氏(Minkowaki)距离
- 汉明(Hamming)距离
- 角度相似性函数
- Tanimoto测度
- 聚类准则
- 阈值准则
- 函数准则
- 基于距离阈值的聚类算法
- 近邻聚类法
- 最大最小距离算法
- 层次聚类法
- 不同的类之间距离计算准则
- 动态聚类法
- K-均值算法
- 迭代自组织的数据分析算法
- 聚类结果的评价
- 评价指标
距离聚类的概念
物以类聚
模式识别从实现方法可分为两类:监督分类和非监督分类,聚类分析属于非监督分类。
相似性的含义
“相似性”是聚类分析中的关键性概念。
Ex:我们可以将特征空间中点与点之间的距离函数作为模式相似性的测量。
相似度测度和聚类准则
相似性测度
相似性测度是衡量模式识别的一种尺度。距离就是一种相似性尺度。
欧氏(Euclid)距离
欧式距离计算公式如下
二维空间:
三维空间:
n维空间:
这里应当明确两点
- 模式特征向量的构成:一种物理量对应一种量纲,而一种量纲一般有不同的单位制式
- 特征数据标准化
马氏(Maharanobis)距离
马氏距离用平方形式表示,设X为模式向量,M为某类模式的均值向量,C为该类模式总体的协方差矩阵,则马氏距离定义为:
假设模式向量X为:
某类模式的均值向量为:
协方差矩阵为S则这个样本点P与数据集合的马氏距离为:
马氏距离越小,说明模型X与该模式类的相似程度越大。
马氏距离的优点是排除了模式样本的之间的相关性影响。
明氏(Minkowaki)距离
当纬度为1,其公式等价于曼哈顿距离。
当维度为2,其公式等价于欧式距离。
当维度大于2到无穷大时候,其公式等价于切比雪夫距离。
汉明(Hamming)距离
如果模式向量各分量的值仅取1或(-1),即为二值模式,则可用汉明距离衡量模式间的相似性,设Xi和Xj为n维二值模式向量,Xi和Xj之间的汉明距离定义为:
Dh(Xi, Xj) = 1/2(n- Xi * Xj )
KEY:若两个模式向量的每个分量取值不同,则汉明距离为n;若两个模式向量的各分量取值都相同,则汉明距离为零。
角度相似性函数
当特征的取值仅为0、1二值时,夹角宇轩度量具有特别意义
Tanimoto测度
通常应用于X为布尔向量,即各分量只取0或1的时候。此时,表示的是X,Y的公共特征的占X,Y所占有的特征的比例
聚类准则
阈值准则
实际问题中,通常凭直观和经验定义一种相似性测度的阈值。
函数准则
一种常用指标是误差平方值和
基于距离阈值的聚类算法
近邻聚类法
问题:
有N个待分类的模式{X1,X2,…,Xn},要求按距离阈值T分类到以Z1,Z2,…为聚类中心的模式类中。
算法描述:
任取样本Xi~~作为第一个聚类中心的初始值,如令Z1 = X1。
计算样本X2到Z1的欧式距离D21= ||X2 - Z1||,若D21>T,定义一新的聚类中心Z2 = X2;否则X2 ∈以Z1为中心的聚类。
假设已有聚类中心Z1,Z2,计算D31=||X3 - Z1||和D32=||X3 - Z2||,若D31>T且D32>T,则建立第三个聚类中心Z3 = X3;否则X3∈离Z1和Z2中最近着(最近邻的聚类中心)。
……以此类推,直到将所有的N个样本都进行分类。
算法特点:
- 局限性:很大程度上依赖于第一个聚类中心的位置选择、待分类模式样本的排列次序、距离阈值T的大小以及样本分布的几何性质等。
- 优点:计算简单。
最大最小距离算法
KEY:max{min(Di1,Di2, … Dik), i = 1,2,…N}
层次聚类法
不同的类之间距离计算准则
- 最短距离法
- 最长距离法
- 中间距离法
- 重心法
- 类平均距离法
动态聚类法
K-均值算法
算法过程如下:
(1)从N个数据文档(样本)随机选取K个数据文档作为质心(聚类中心)。
本文在聚类中心初始化实现过程中采取在样本空间范围内随机生成K个聚类中心。
(2)对每个数据文档测量其到每个质心的距离,并把它归到最近的质心的类。
(3)重新计算已经得到的各个类的质心。
(4)迭代(2)~(3步直至新的质心与原质心相等或小于指定阈值,算法结束。
本文采用所有样本所属的质心都不再变化时,算法收敛。
迭代自组织的数据分析算法
聚类结果的评价
评价指标
- 聚类中心之间的距离
- 诸聚类域中样本数目
- 诸聚类域内样本的标准差向量
Made by 柯少又来秀了