Tolérance aux pannes

La capacité d'un système d'IA à continuer à fonctionner correctement même lorsque certains composants tombent en panne ou génèrent des erreurs.

Définition

Implique des modèles architecturaux (composants redondants, dégradation progressive, points de contrôle et annulations de transactions) qui garantissent la disponibilité et la sécurité des services d'IA en cas de défaillance partielle. La gouvernance prescrit des tests d'injection de défauts (ingénierie du chaos), des analyses des modes de défaillance et des objectifs de niveau de service clairs en matière de temps de restauration et de continuité de service.

Exemple concret

Une API de classification d'images basée sur le cloud s'exécute sur plusieurs instances de conteneurs derrière un équilibreur de charge. Si une instance se bloque lors d'un événement à volume élevé, le trafic passe automatiquement vers des pods sains et les instances bloquées redémarrent sans impact sur l'utilisateur. L'équipe des opérations effectue régulièrement des tests de chaos pour valider les mécanismes de tolérance aux pannes.