Gegnerischer Angriff
Techniken, die KI-Modelle manipulieren, indem irreführende Eingaben eingeführt werden, um falsche Ausgaben zu verursachen.
Definition
Absichtliche, oft nicht wahrnehmbare Änderungen an Eingabedaten — Bildern, Text oder Audio —, die Sicherheitslücken in den Entscheidungsgrenzen eines KI-Modells ausnutzen. Solche Angriffe machen Schwachstellen von Black-Box-Systemen deutlich und machen proaktive Abwehrmaßnahmen erforderlich: gegnerisches Training (das Einschleusen von handfesten Beispielen während des Trainings), Ebenen zur Bereinigung von Eingaben und fortlaufende Penetrationstests des „roten Teams“.
Real-World Example
Sicherheitsforscher kleben winzige, kunstvolle Aufkleber auf ein Stoppschild, sodass das Sichtsystem eines selbstfahrenden Autos es fälschlicherweise als „Geschwindigkeitsbegrenzung 45" interpretiert. Der Autohersteller reagiert darauf, indem er Detektoren für gegnerische Beispiele integriert und das Modell mit einer zufälligen Eingabevorverarbeitung härtet.