Umgang mit fehlenden Daten

Techniken (z. B. Imputation, Löschung, Modellierung) zur Behebung von Lücken in Datensätzen zur Wahrung der Modellintegrität und Fairness.

Definition

Fehlende Angaben können zu Verzerrungen bei Modellen führen oder die Genauigkeit verringern. Die Steuerung umfasst Strategien: Löschen (Entfernen unvollständiger Datensätze), Imputation (Mittelwert, Median, modellbasiert) oder explizite Merkmale, bei denen der Indikator fehlt. Jede Auswahl muss dokumentiert, ihre Auswirkungen auf die Fairness im Downstream bewertet und die Pipelines so konfiguriert werden, dass fehlende Werte in der Produktion einheitlich verarbeitet werden.

Real-World Example

In einem Kreditrisikodatensatz fehlen 15% Einkommenswerte. Das Team vergleicht die Mittelwertimputation, die KNN-Imputation und ein Modell mit prädiktiver Imputation. Sie wählen die KNN-Imputation (niedrigster RMSE), fügen ein binäres Merkmal „was_income_missing“ hinzu und überprüfen, dass die Imputation die Zustimmungsraten für benachteiligte Gruppen nicht verzerrt.