Fuite d'étiquettes

L'inclusion involontaire d'informations de sortie dans les étiquettes de données d'entraînement, ce qui peut gonfler les indicateurs de performance et masquer de véritables problèmes de généralisation des modèles.

Définition

Se produit lorsque des fonctionnalités encodent par inadvertance l'étiquette cible (par exemple, un horodatage ou un identifiant parfaitement corrélé), ce qui amène le modèle à « tricher » au lieu d'apprendre de véritables modèles. Les fuites d'étiquettes entraînent des scores de validation trop optimistes et, par conséquent, des échecs de production. La gouvernance exige une analyse rigoureuse de la corrélation entre les caractéristiques et les étiquettes, des ensembles de tests résistants datant de différentes périodes et des vérifications du pipeline pour éviter les fuites dans l'ingénierie des fonctionnalités.

Exemple concret

Un ensemble de données de prévision du taux de désabonnement comprend une colonne « cancellation_reason » étiquetée uniquement après le départ du client, ce qui permet de prédire parfaitement le taux de désabonnement. Après avoir découvert cette fuite, l'équipe supprime la colonne, se reforme avec uniquement des fonctionnalités de pré-annulation et valide les performances d'une toute nouvelle cohorte, révélant ainsi le véritable pouvoir prédictif.