Versionskontrolle

Die Praxis, Änderungen an KI-Code, -Modellen und -Datensätzen im Laufe der Zeit zu verwalten und zu verfolgen, um Reproduzierbarkeit und Überprüfbarkeit sicherzustellen.

Definition

Beinhaltet die Verwendung von Systemen wie Git für Code, DVC oder LakeFS für Daten und Model-Registry-Tools für Artefaktversionen. Jede Änderung — Feature-Engineering-Skripte, Hyperparameter-Einstellungen, Datensatz-Snapshots, trainierte Modell-Binärdateien — wird markiert und dokumentiert. Die Versionskontrolle ermöglicht ein Rollback, das Filialmanagement für Experimente und die vollständige Rückverfolgbarkeit, wie ein Produktionsmodell abgeleitet wurde.

Real-World Example

Ein Finanzdienstleistungsteam speichert seinen Vorverarbeitungscode in Git, verfolgt rohe und bereinigte Datensätze über DVC und registriert jedes trainierte Modell in MLflow mit seinen Parametern und der Eingabedatenversion. Wenn Anomalien auftreten, können sie jede frühere Modellversion exakt reproduzieren, was sowohl das Debuggen als auch die Einhaltung der Auditbestimmungen unterstützt.