Trainingsdatensatz

Die kuratierte Sammlung von beschrifteten oder unbeschrifteten Daten, die verwendet wird, um einem KI-Modell die Beziehungen und Muster beizubringen, die es lernen muss, um seine Aufgabe zu erfüllen.

Definition

Eine behördlich verwaltete Ressource, die vor ihrer Verwendung Qualitätsprüfungen (Richtigkeit, Vollständigkeit, Repräsentativität), Datenschutzüberprüfungen (PII-Scrubbing) und Bewertungen von Vorurteilen unterzogen wird. Trainingsdatensätze werden versioniert, mit Metadaten (Quelle, Zeitstempel, Steward) katalogisiert und sicher gespeichert. Verwaltungsrichtlinien stellen sicher, dass Aktualisierungen von Datensätzen eine erneute Validierung auslösen und dass die Herkunft der Datensätze rückverfolgbar ist, um Reproduzierbarkeit und Konformität zu gewährleisten.

Real-World Example

Ein Team für selbstfahrende Autos verwaltet einen beschrifteten Datensatz mit Straßenszenen, der aus verschiedenen Regionen gesammelt wurde. Bevor sie neue Daten hinzufügen, überprüfen sie automatisch die Konsistenz der Kennzeichnungen, entfernen PII (Nummernschilder) und aktualisieren das Datensatzregister. Die Modelle verweisen auf bestimmte Datensatzversionen und stellen so sicher, dass die Trainingsdaten vollständig überprüfbar sind.