Auswahl der Funktionen
Identifizierung und Auswahl der relevantesten Merkmale für das Modelltraining, um die Komplexität zu reduzieren und die Genauigkeit zu verbessern.
Definition
Ein Prozess, der Features auf der Grundlage statistischer Metriken (wechselseitige Information, Korrelation), modellgestützter Wichtigkeitswerte oder Wrapper-Methoden (rekursive Merkmalseliminierung) bewertet oder filtert. Eine gute Merkmalsauswahl reduziert Überanpassungen, beschleunigt das Training und vereinfacht die Erklärbarkeit. Gemäß den Richtlinien der Unternehmensführung müssen die Auswahlkriterien dokumentiert werden, um sicherzustellen, dass keine vertraulichen Merkmale versehentlich durchsickern, und die Auswahl muss im Zuge der Datenentwicklung neu bewertet werden.
Real-World Example
Bei der Kreditrisikomodellierung verwendet ein Data-Science-Team L1-Regularisierung und Permutationswichtigkeitsanalyse, um 40% der Variablen mit geringer Auswirkung (z. B. kleinere demografische Felder) zu entfernen. Das daraus resultierende Modell trainiert um 30% schneller, gewährleistet eine gleichbleibende Leistung und ist für Auditoren einfacher zu überprüfen.