Table des matières:
Définition - Que signifie le regroupement K-Means?
Le clustering K-means est un simple algorithme d'apprentissage non supervisé qui est utilisé pour résoudre les problèmes de clustering. Il suit une procédure simple de classification d'un ensemble de données donné en un certain nombre de grappes, définies par la lettre "k", qui est fixée au préalable. Les grappes sont ensuite positionnées en tant que points et toutes les observations ou points de données sont associés à la grappe la plus proche, calculés, ajustés, puis le processus recommence à utiliser les nouveaux ajustements jusqu'à ce qu'un résultat souhaité soit atteint.
Le clustering K-means a des utilisations dans les moteurs de recherche, la segmentation du marché, les statistiques et même l'astronomie.
Techopedia explique le clustering K-Means
Le clustering K-means est une méthode utilisée pour l'analyse de clustering, en particulier dans l'exploration de données et les statistiques. Il vise à partitionner un ensemble d'observations en un certain nombre de clusters (k), résultant en la partition des données en cellules de Voronoi. Cela peut être considéré comme une méthode pour découvrir à quel groupe appartient un certain objet.
Il est principalement utilisé en statistique et peut être appliqué à presque toutes les branches d'études. Par exemple, dans le marketing, il peut être utilisé pour regrouper différentes données démographiques de personnes en groupes simples qui facilitent le ciblage des spécialistes du marketing. Les astronomes l'utilisent pour passer au crible d'énormes quantités de données astronomiques; comme ils ne peuvent pas analyser chaque objet un par un, ils ont besoin d'un moyen de trouver statistiquement des points d'intérêt pour l'observation et l'investigation.
L'algorithme:
- K points sont placés dans l'espace de données objet représentant le groupe initial de centroïdes.
- Chaque objet ou point de données est affecté dans le k le plus proche.
- Une fois tous les objets attribués, les positions des k centroïdes sont recalculées.
- Les étapes 2 et 3 sont répétées jusqu'à ce que les positions des centroïdes ne bougent plus.
