Leckage auf dem Etikett
Die versehentliche Aufnahme von Leistungsinformationen in die Beschriftungen der Trainingsdaten, wodurch Leistungskennzahlen in die Höhe getrieben und echte Probleme mit der Modellgeneralisierung verschleiert werden können.
Definition
Tritt auf, wenn Features versehentlich das Ziellabel kodieren (z. B. Zeitstempel oder ID, die perfekt korrelieren), wodurch das Modell „cheatet“, anstatt echte Muster zu lernen. Undichte Etiketten führen zu übermäßig optimistischen Prüfungsergebnissen und einem späteren Produktionsausfall. Die Unternehmensführung erfordert eine strenge Korrelationsanalyse der Merkmalsbezeichnungen, Wiederholungstests aus unterschiedlichen Zeiträumen und Pipeline-Checks, um Leckagen bei der Feature-Konstruktion zu verhindern.
Real-World Example
Ein Datensatz zur Abwanderungsprognose enthält eine Spalte „stornierung_Grund“, die erst beschriftet wird, nachdem der Kunde gegangen ist, wodurch die Abwanderung perfekt vorhergesagt wird. Nachdem das Team diese undichte Stelle entdeckt hat, entfernt es die Spalte, trainiert nur mit Funktionen, die vor der Stornierung vorliegen, und validiert die Leistung an einer völlig neuen Kohorte — so wird die wahre Vorhersagefähigkeit sichtbar.