敵対的攻撃

不正な入力を導入して誤った出力を発生させることで AI モデルを操作する手法。

Definition

AIモデルの意思決定の境界にある脆弱性を悪用する、入力データ(画像、テキスト、音声)への意図的な(多くの場合気付かれない)変更です。このような攻撃は、ブラックボックスシステムの弱点を浮き彫りにし、敵対的訓練(訓練中に細工された例を注入する)、入力サニタイズレイヤー、継続的な「レッドチーム」侵入テストなどの積極的な防御の必要性を高めます。

Real-World Example

セキュリティ研究者は、自動運転車のビジョンシステムに「速度制限45」と誤読されないように、一時停止標識に小さくて巧妙なステッカーを貼ります。この自動車メーカーは、敵対的な例となる検出器を組み込み、ランダム化された入力前処理でモデルを強化することで対応しています。