体重監査
モデルの重みや構造を調べて、改ざんや意図しない動作を示す可能性のある異常、バックドア、偏りがないかを調べます。
Definition
詳細な検査プロセスでは、モデルパラメータに不規則な分布、隠れたトリガー(バックドアパターンなど)、および敏感な特徴に関連する不均衡な重みの大きさがないかを調べます。ガバナンスには、重みヒストグラムをスキャンして外れ値パラメータを検出し、疑わしいパターンにフラグを立ててセキュリティと公平性を確認する自動化ツールが必要です。これにより、破損したモデルや悪意を持って操作されたモデルが展開されるのを防ぐことができます。
Real-World Example
あるセキュリティチームが、顧客セグメンテーションモデルに基づいて重み監査ツールを実行したところ、暗号化されたバックドア機能の重みが急増していることが判明しました。モデルを隔離し、フォレンジック分析を行ってポイズニング攻撃を発見し、クリーンなチェックポイントから再トレーニングすることで、本番環境で使用する前に悪質なバックドアを排除します。