Attaque contradictoire

Techniques qui manipulent les modèles d'IA en introduisant des entrées trompeuses pour provoquer des sorties incorrectes.

Définition

Modifications délibérées, souvent imperceptibles, apportées aux données d'entrée (images, texte ou audio) qui exploitent les vulnérabilités des limites de décision d'un modèle d'IA. De telles attaques mettent en évidence les faiblesses des systèmes de type boîte noire et nécessitent des défenses proactives : entraînement contradictoire (injection d'exemples contrefaits pendant l'entraînement), couches de nettoyage des entrées et tests d'intrusion continus « en équipe rouge ».

Exemple concret

Les chercheurs en sécurité placent de minuscules autocollants astucieux sur un panneau d'arrêt afin que le système de vision d'une voiture autonome l'interprète à tort comme « Limite de vitesse 45 ». Le constructeur automobile répond en intégrant des détecteurs d'exemples contradictoires et en renforçant le modèle grâce à un prétraitement d'entrée aléatoire.