无监督聚类评价指标
文章目录
- 无监督聚类评价指标
- SEE、SC和CH 寻找k
- 评价指标-轮廓系数法(SC)
- 评价指标-CH系数法
- 无监督聚类算法结果好坏的评价指标
- Compactness(紧密性)(CP)
- Separation(间隔性)(SP)
- Davies-Bouldin Index(戴维森堡丁指数)(分类适确性指标)(DB)(DBI)
- Dunn Validity Index (邓恩指数)(DVI)
- 参考:
SEE、SC和CH 寻找k
误差平方和(Sum of the Squared Errors, SSE),轮廓系数(Silhouette Coefficient)和CH指标(Calinski-Harabaz)
评价用于后验判断聚类K,如kmeans
评价指标-轮廓系数法(SC)
使用聚类的凝聚度和分离度,来评价聚类效果.
评价指标-CH系数法
Calinski-Harabasz:类别内部数据的距离平方和越小越好,类别之间的距离平方和越大越好这样的Calinski-Harabasz分数s会局,分数S高则聚类效果越好.
无监督聚类算法结果好坏的评价指标
无监督聚类算法结果好坏的评价指标
Compactness(紧密性)(CP)
CP计算每一个类各点到聚类中心的平均距离CP越低意味着类内聚类距离越近。著名的 K-Means 聚类算法就是基于此思想提出的。
缺点:没有考虑类间效果
Separation(间隔性)(SP)
SP计算 各聚类中心两两之间平均距离,SP越高意味类间聚类距离越远
缺点:没有考虑类内效果
Davies-Bouldin Index(戴维森堡丁指数)(分类适确性指标)(DB)(DBI)
DB计算 任意两类别的类内距离平均距离(CP)之和除以两聚类中心距离求最大值。DB越小意味着类内距离越小 同时类间距离越大
缺点:因使用欧式距离 所以对于环状分布 聚类评测很差
Dunn Validity Index (邓恩指数)(DVI)
DVI计算 任意两个簇元素的最短距离(类间)除以任意簇中的最大距离(类内)。 DVI越大意味着类间距离越大 同时类内距离越小
缺点:对离散点的聚类测评很高、对环状分布测评效果差
轮廓系数仅适用于某些算法,如K-Means和层次聚类。它不适合与DBSCAN一起使用,我们将使用DBCV代替。