Fehlertoleranz
Die Fähigkeit eines KI-Systems, auch dann korrekt zu arbeiten, wenn einige Komponenten ausfallen oder Fehler erzeugen.
Definition
Beinhaltet Architekturmuster — redundante Komponenten, graziöse Degradation, Checkpointing und Transaktionsrollbacks —, die sicherstellen, dass KI-Dienste auch bei Teilausfällen verfügbar und sicher bleiben. Die Unternehmensführung schreibt Fehlerinjektionstests (Chaos Engineering), Ausfallmodusanalysen und klare Service-Level-Ziele für die Wiederherstellungszeit und die Servicekontinuität vor.
Real-World Example
Eine cloudbasierte API zur Bildklassifizierung wird auf mehreren Container-Instances hinter einem Load Balancer ausgeführt. Wenn eine Instance während eines Ereignisses mit hohem Datenvolumen abstürzt, wird der Datenverkehr automatisch auf fehlerfreie Pods umgeleitet, und abgestürzte Instances werden ohne Auswirkungen auf den Benutzer neu gestartet. Das Betriebsteam führt regelmäßig Chaostests durch, um die Fehlertoleranzmechanismen zu validieren.