Apprentissage non supervisé
Approche d'apprentissage automatique dans laquelle les modèles identifient des modèles ou des regroupements dans des données non étiquetées sans indication explicite des résultats.
Définition
Techniques (par exemple, agrégation, réduction de dimensionnalité, détection d'anomalies) qui permettent de découvrir la structure intrinsèque des données en optimisant des objectifs tels que la cohésion des clusters ou les erreurs de reconstruction. Les considérations de gouvernance incluent la validation des modèles découverts par rapport à l'expertise du domaine, la surveillance des regroupements erronés ou biaisés et la garantie de la qualité des données puisqu'aucune étiquette n'existe pour détecter automatiquement les erreurs. Vous devez documenter le choix de l'algorithme, les réglages des paramètres et les outils d'interprétabilité utilisés pour inspecter les résultats.
Exemple concret
Une chaîne de magasins utilise le clustering k-means sur l'historique des achats des clients pour segmenter les acheteurs en groupes basés sur le comportement. Les analystes valident les segments par rapport à des enquêtes démographiques et ajustent le nombre de clusters pour garantir des personnalités marketing pertinentes, en évitant les regroupements trompeurs motivés par des artefacts de données.