Gestion des données manquantes

Techniques (par exemple, imputation, suppression, modélisation) pour combler les lacunes dans les ensembles de données afin de préserver l'intégrité et l'équité du modèle.

Définition

L'absence de données peut biaiser les modèles ou réduire leur précision. La gouvernance couvre les stratégies : suppression (suppression des enregistrements incomplets), imputation (moyenne, médiane, basée sur un modèle) ou fonctionnalités explicites d'indicateur manquant. Chaque choix doit être documenté, son impact sur l'équité en aval doit être évalué et les pipelines doivent être configurés pour gérer les valeurs manquantes de manière cohérente en production.

Exemple concret

Un ensemble de données sur le risque de crédit comporte 15 % de valeurs de revenus manquantes. L'équipe compare l'imputation moyenne, l'imputation KNN et un modèle d'imputation prédictive. Ils choisissent l'imputation KNN (RMSE le plus bas), ajoutent une fonction binaire « was_income_missing » et valident que l'imputation ne fausse pas les taux d'approbation pour les groupes défavorisés.