Operative Belastbarkeit
Die Fähigkeit von KI-Systemen und ihrer unterstützenden Infrastruktur, Störungen oder unerwünschte Ereignisse zu antizipieren, ihnen standzuhalten, sich von ihnen zu erholen und sich an sie anzupassen.
Definition
Beinhaltet Redundanz (Failover-Server), Disaster-Recovery-Pläne (Backups, Warm-Standby-Cluster), Autoscaling zur Bewältigung von Datenverkehrsspitzen und Chaos-Engineering-Übungen zum Testen der Systemstabilität. Die Unternehmensführung erfordert die Definition von Resilienz-SLAs (RTO, RPO), die Durchführung regelmäßiger Übungen und die Einbindung von Resilienzanforderungen in das Systemdesign und die Beschaffung.
Real-World Example
Eine KI im Gesundheitswesen für die Überwachung der Intensivpflege wird in einer aktiv-aktiven Cloud-Bereitstellung in zwei Regionen ausgeführt. Wenn eine Region ausfällt, verlagert sich der Verkehr nahtlos in die andere. Vierteljährliche Chaos-Tests simulieren Ausfälle in der Region und verifizieren den automatischen Failover innerhalb des einminütigen SLAs. So wird eine unterbrechungsfreie Patientenüberwachung gewährleistet.