无监督聚类评价指标


文章目录

  • 无监督聚类评价指标
  • SEE、SC和CH 寻找k
  • 评价指标-轮廓系数法(SC)
  • 评价指标-CH系数法
  • 无监督聚类算法结果好坏的评价指标
  • Compactness(紧密性)(CP)
  • Separation(间隔性)(SP)
  • Davies-Bouldin Index(戴维森堡丁指数)(分类适确性指标)(DB)(DBI)
  • Dunn Validity Index (邓恩指数)(DVI)
  • 参考:


SEE、SC和CH 寻找k

误差平方和(Sum of the Squared Errors, SSE),轮廓系数(Silhouette Coefficient)和CH指标(Calinski-Harabaz)
评价用于后验判断聚类K,如kmeans

评价指标-轮廓系数法(SC)

使用聚类的凝聚度和分离度,来评价聚类效果.

评价指标-CH系数法

Calinski-Harabasz:类别内部数据的距离平方和越小越好,类别之间的距离平方和越大越好这样的Calinski-Harabasz分数s会局,分数S高则聚类效果越好.

无监督聚类算法结果好坏的评价指标

无监督聚类算法结果好坏的评价指标

Compactness(紧密性)(CP)

深度学习 无监督聚类 无监督聚类的评价指标_深度学习 无监督聚类


深度学习 无监督聚类 无监督聚类的评价指标_聚类算法_02

CP计算每一个类各点到聚类中心的平均距离CP越低意味着类内聚类距离越近。著名的 K-Means 聚类算法就是基于此思想提出的。

缺点:没有考虑类间效果

Separation(间隔性)(SP)

深度学习 无监督聚类 无监督聚类的评价指标_聚类_03

SP计算 各聚类中心两两之间平均距离,SP越高意味类间聚类距离越远

缺点:没有考虑类内效果

Davies-Bouldin Index(戴维森堡丁指数)(分类适确性指标)(DB)(DBI)

深度学习 无监督聚类 无监督聚类的评价指标_深度学习 无监督聚类_04

DB计算 任意两类别的类内距离平均距离(CP)之和除以两聚类中心距离求最大值。DB越小意味着类内距离越小 同时类间距离越大

缺点:因使用欧式距离 所以对于环状分布 聚类评测很差

Dunn Validity Index (邓恩指数)(DVI)

深度学习 无监督聚类 无监督聚类的评价指标_深度学习 无监督聚类_05

DVI计算 任意两个簇元素的最短距离(类间)除以任意簇中的最大距离(类内)。 DVI越大意味着类间距离越大 同时类内距离越小

缺点:对离散点的聚类测评很高、对环状分布测评效果差

轮廓系数仅适用于某些算法,如K-Means和层次聚类。它不适合与DBSCAN一起使用,我们将使用DBCV代替。