Indice de Davies-Bouldin
En apprentissage automatique, plus précisément en classification automatique, l'indice de Davies-Bouldin est une mesure de qualité d'une partition d'un ensemble de données, introduite par David L. Davies et Donald W. Bouldin en 1979[1].
Définition
[modifier | modifier le code]C'est la moyenne du rapport maximal entre la distance d'un point au centre de son groupe et la distance entre deux centres de groupes.
Expression
[modifier | modifier le code]Position du problème
[modifier | modifier le code]Si l'on note la matrice des données, dont chaque ligne correspond à un individu (ou observation) et chaque colonne correspond à un prédicteur (ou variable). On note le nombre d'individus et le nombre de prédicteurs :
Notons la dissimilarité entre les individus et (respectivement, ligne et de ). Notons le nombre de groupes que l'on souhaite former.
Un algorithme de partitionnement donnera une fonction d'attribution dont on cherche à évaluer la pertinence par un score. L'ensemble des points appartenant à un groupe est alors donné par .
Expression de l'indice de Davies-Bouldin
[modifier | modifier le code]L'indice (ou score) de Davies-Bouldin, , se base sur les points moyens de chaque groupe et la distance moyenne entre un point et le centre de son groupe .
Il aura pour expression[2] :
Elle peut varier un peu selon les implémentations (distance imposée ou choix limité).
Propriétés
[modifier | modifier le code]Domaine de variation
[modifier | modifier le code]L'indice de Davies-Bouldin varie entre 0 (meilleure classification) et (pire classification).
Complexité
[modifier | modifier le code]
Notes et références
[modifier | modifier le code]- D. L. Davies et D. W. Bouldin, « A Cluster Separation Measure », IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. PAMI-1, no 2, , p. 224–227 (ISSN 0162-8828, DOI 10.1109/TPAMI.1979.4766909, lire en ligne, consulté le )
- (en) « Clustering Indices », sur cran.r-project.org (consulté le )