Unausgeglichene Daten

Ein Datensatz, bei dem eine Klasse oder Kategorie anderen deutlich überlegen ist, was dazu führen kann, dass KI-Modelle sich der Mehrheitsklasse zuwenden, sofern nicht gemildert wird.

Definition

Tritt auf, wenn Zielkategorien (z. B. Betrug und legitime Betrug) ungleichmäßig vertreten sind, was dazu führt, dass Modelle Mehrheitsklassen bevorzugen und seltene, aber kritische Fälle übersehen. Zu den Abhilfemaßnahmen gehören Resampling (Minderheit zu viele Stichproben, Mehrheit zu wenig), synthetische Datengenerierung (SMOTE) oder Anpassungen der Klassengewichtung. Die Steuerung erfordert die Überwachung der Klassenverteilungen, die Verfolgung der Leistung nach Klassen und die Dokumentation von Minderungsmaßnahmen und deren Auswirkungen.

Real-World Example

Der Datensatz einer Bank zur Betrugserkennung enthält 0,5% Betrugsfälle. Das Data-Science-Team wendet SMOTE an, um zu viele Betrugsfälle zu erfassen, trainiert das Modell mit klassengewichtetem Verlust neu und erhöht die Anzahl der Betrugsrückmeldungen von 60 auf 85% — und dokumentiert gleichzeitig den Prozess zur Prüfung und Einhaltung der Vorschriften.