Sélection des fonctionnalités
Identifier et sélectionner les fonctionnalités les plus pertinentes pour l'entraînement des modèles afin de réduire la complexité et d'améliorer la précision.
Définition
Processus qui classe ou filtre les caractéristiques en fonction de mesures statistiques (informations mutuelles, corrélation), de scores d'importance basés sur des modèles ou de méthodes d'encapsulation (élimination récursive de caractéristiques). Une bonne sélection de fonctionnalités réduit le surajustement, accélère l'entraînement et simplifie l'explicabilité. Les directives de gouvernance exigent de documenter les critères de sélection, de veiller à ce qu'aucun attribut sensible ne soit divulgué par inadvertance et de réévaluer la sélection au fur et à mesure de l'évolution des données.
Exemple concret
Dans la modélisation du risque de crédit, une équipe de science des données utilise la régularisation L1 et l'analyse de l'importance des permutations pour supprimer 40 % des variables à faible impact (par exemple, des champs démographiques mineurs). Le modèle qui en résulte s'entraîne 30 % plus rapidement, maintient les performances et est plus facile à examiner pour les auditeurs.