Validation croisée
Technique de validation de modèles permettant d'évaluer comment les résultats d'une analyse statistique seront généralisés à un ensemble de données indépendant.
Définition
Implique le partitionnement des données en k plis, l'entraînement sur les plis k-1 et les tests sur le pli retenu, en répétant k fois. Cela donne des estimations fiables de la généralisation du modèle et révèle un surajustement. Les cas d'utilisation de la gouvernance incluent la standardisation des protocoles de validation croisée (taille des plis, graines aléatoires) entre les équipes et la documentation des résultats pour les audits de conformité.
Exemple concret
Une équipe d'analyse marketing utilise une validation croisée 10 fois sur son modèle de désabonnement des clients. Chaque pli produit des scores AUC ; ils indiquent la moyenne et la variance aux parties prenantes. Lorsque la variance est élevée, ils collectent des données supplémentaires au lieu de déployer un modèle aux performances instables.