Données déséquilibrées
Un ensemble de données dans lequel une classe ou une catégorie est nettement plus nombreuse que les autres, ce qui peut entraîner un biais des modèles d'IA en faveur de la classe majoritaire, à moins que cela ne soit atténué.
Définition
Se produit lorsque les catégories cibles (par exemple, fraude et légitimité) sont représentées de manière inégale, ce qui amène les modèles à privilégier les classes majoritaires et à négliger les cas rares mais critiques. Les techniques d'atténuation incluent le rééchantillonnage (minorité de suréchantillonnage, majorité de sous-échantillonnage), la génération de données synthétiques (SMOTE) ou l'utilisation d'ajustements de pondération de classe. La gouvernance nécessite de surveiller la distribution des classes, de suivre les performances par classe et de documenter les choix d'atténuation et leurs effets.
Exemple concret
L'ensemble de données de détection des fraudes d'une banque contient 0,5 % de cas de fraude. L'équipe de science des données applique SMOTE pour suréchantillonner des exemples de fraude, réentraîne le modèle en fonction des pertes pondérées par classe et augmente le taux de rappel des fraudes de 60 % à 85 %, tout en documentant le processus d'audit et de conformité.