Qualität der Daten
Der Zustand von Daten basiert auf Faktoren wie Genauigkeit, Vollständigkeit, Zuverlässigkeit und Relevanz, die für eine effektive Leistung von KI-Modellen von entscheidender Bedeutung sind.
Definition
Eine mehrdimensionale Messgröße, die Richtigkeit (fehlerfrei), Vollständigkeit (keine fehlenden Werte), Konsistenz (einheitliche Formate), Aktualität (aktuell) und Relevanz (zweckmäßig) umfasst. Datenqualitätsprogramme setzen automatische Validierungsregeln, Bereinigungspipelines und Qualitäts-Dashboards ein. Außerdem gibt es Eskalationsverfahren, wenn die Kennzahlen unter die Schwellenwerte fallen.
Real-World Example
Ein Kreditrisikoteam verfolgt die Datenqualitätskennzahlen für Einkommens- und Beschäftigungsfelder in Kreditanträgen. Wenn die Rate fehlender Werte 2% übersteigt, löst eine automatische Warnung eine Überprüfung aus: Die Dateningenieure korrigieren die ETL-Skripte und benachrichtigen die Mitarbeiter an vorderster Front, damit sie die Pflichtfelder durchsetzen, sodass die Vollständigkeit der Daten wiederhergestellt wird, bevor das Modell erneut geschult wird.