レッド・チーミング
社内外の専門家が攻撃や悪用のシナリオをシミュレートしてAIシステムの脆弱性を明らかにするプロアクティブなテストアプローチです。
Definition
専門チーム (「レッドチーム」) が、プロンプト・インジェクション、データポイズニング、APIの悪用、またはモデル抽出を通じて、モデル・セーフガードを破ろうとする構造化された敵対的演習。レッドチームでは、防御のギャップを特定し、緩和戦略を伝え、セキュリティとポリシーのレイヤーが現実的な脅威シミュレーションの下でも成り立っていることを検証します。ガバナンスによって、レッドチームの範囲、関与のルール、必要な是正報告が決まります。
Real-World Example
金融AIプラットフォームは、外部のレッドチームを雇ってAPIへのデータ抽出攻撃を試みます。チームはサンプルトレーニングデータを正常に再構築しました。この調査結果に基づいて、プラットフォームにはレート制限、プライバシーの差別化に関するノイズ、より強力な認証機能が追加され、公開前に重大な脆弱性に対処できるようになりました。