Résilience opérationnelle
La capacité des systèmes d'IA et de leur infrastructure de support à anticiper les perturbations ou les événements indésirables, à y résister, à s'en remettre et à s'y adapter.
Définition
Comprend la redondance (serveurs de basculement), des plans de reprise après sinistre (sauvegardes, clusters en mode veille chaude), une mise à l'échelle automatique pour gérer les pics de trafic et des exercices d'ingénierie du chaos pour tester la robustesse du système. La gouvernance nécessite de définir des SLA de résilience (RTO, RPO), de mener des exercices réguliers et d'intégrer les exigences de résilience dans la conception et l'approvisionnement des systèmes.
Exemple concret
Une IA médicale pour la surveillance des soins critiques s'exécute dans le cadre d'un déploiement cloud actif-actif dans deux régions. En cas de défaillance d'une région, le trafic se déplace facilement vers l'autre. Des tests de chaos trimestriels simulent les pannes régionales, vérifiant le basculement automatique dans le cadre du SLA d'une minute, garantissant ainsi une surveillance ininterrompue des patients.