ガードレール

実行時の危険な動作やコンプライアンス違反の動作を防ぐために、AI システムに事前定義された制約またはチェック(技術的およびポリシー的)が組み込まれています。

Definition

防御層には、アルゴリズム(信頼閾値、入力サニタイズ、敵対的検出器)と手続き型(承認ゲート、ヒューマン・イン・ザ・ループ)の両方)があり、ポリシーの境界を強制します。ガードレールはアウトプットを制限し (ヘイトスピーチ禁止など)、意思決定ドメインを制限し、フェイルセーフアクションをトリガーします。効果的なガードレール・ガバナンスには、新たな脅威の出現に合わせて制約を見直して更新し、回避策を監視することが必要です。

Real-World Example

コンテンツ管理AIには、冒涜的なコンテンツや過激なコンテンツをブロックするガードレールがあります。NLP フィルターの信頼度が 70% を下回ると、システムは自動的に投稿するのではなく、投稿を人間のモデレーターにルーティングします。これにより、安全でないコンテンツが監視なしにフィードに届くことがなくなります。