Umgang mit fehlenden Daten
Techniken (z. B. Imputation, Löschung, Modellierung) zur Behebung von Lücken in Datensätzen zur Wahrung der Modellintegrität und Fairness.
Definition
Fehlende Angaben können zu Verzerrungen bei Modellen führen oder die Genauigkeit verringern. Die Steuerung umfasst Strategien: Löschen (Entfernen unvollständiger Datensätze), Imputation (Mittelwert, Median, modellbasiert) oder explizite Merkmale, bei denen der Indikator fehlt. Jede Auswahl muss dokumentiert, ihre Auswirkungen auf die Fairness im Downstream bewertet und die Pipelines so konfiguriert werden, dass fehlende Werte in der Produktion einheitlich verarbeitet werden.
Real-World Example
In einem Kreditrisikodatensatz fehlen 15% Einkommenswerte. Das Team vergleicht die Mittelwertimputation, die KNN-Imputation und ein Modell mit prädiktiver Imputation. Sie wählen die KNN-Imputation (niedrigster RMSE), fügen ein binäres Merkmal „was_income_missing“ hinzu und überprüfen, dass die Imputation die Zustimmungsraten für benachteiligte Gruppen nicht verzerrt.