Surveillance de la disponibilité
Suivi continu de la disponibilité et des performances des systèmes d'IA afin de détecter les pannes ou les dégradations susceptibles d'avoir un impact sur les opérations critiques ou les obligations de conformité.
Définition
Pratique de fiabilité essentielle dans laquelle les indicateurs de niveau de service (pourcentage de disponibilité, temps moyen de restauration, taux d'erreur) sont collectés via des points de terminaison de contrôle de l'état, des transactions synthétiques et des sondes d'infrastructure. Les alertes et les mécanismes de basculement automatisés garantissent une réponse rapide aux interruptions de service. La gouvernance définit les SLA acceptables, la conservation des journaux de disponibilité pour la résolution des litiges et des exercices réguliers pour tester les processus de restauration.
Exemple concret
Une API de détection des fraudes permet de suivre la disponibilité de 99,9 % grâce à des transactions de test synthétiques toutes les minutes. En cas d'échec de réponse, des alertes automatisées envoient un message à l'ingénieur de garde et redirigent le trafic vers un cluster de secours, garantissant ainsi une protection continue contre la fraude aux clients des banques.