Rambardes

Contraintes ou contrôles prédéfinis (techniques et politiques) intégrés aux systèmes d'IA pour empêcher tout comportement dangereux ou non conforme lors de l'exécution.

Définition

Des couches défensives, à la fois algorithmiques (seuils de confiance, nettoyage des entrées, détecteurs contradictoires) et procédurales (portes d'approbation, intervention humaine), qui appliquent les limites des politiques. Les barrières limitent les sorties (par exemple, pas de discours de haine), restreignent les domaines de décision et déclenchent des actions de sécurité intégrée. Une gouvernance efficace des garde-fous nécessite de revoir et de mettre à jour les contraintes à mesure que de nouvelles menaces apparaissent et de surveiller les tentatives de contournement.

Exemple concret

Une IA de modération de contenu est dotée de garde-fous qui bloquent les blasphèmes et les contenus extrémistes. Lorsque le niveau de confiance du filtre NLP est inférieur à 70 %, le système redirige la publication vers un modérateur humain au lieu de la publier automatiquement, garantissant ainsi que tout contenu dangereux n'atteint jamais le fil d'actualité sans surveillance.