AI アライメント

AIシステムの目標と行動が人間の価値観と意図と一致していることを確認するプロセス。

Definition

AIの目的、報酬機能、意思決定の境界が人間の目標と倫理規範を反映していることを確認するための継続的なプロセスには、技術的な修正、ポリシーガードレール、および人間によるフィードバックループが必要です。

Real-World Example

ニュースレコメンデーションAIは、センセーショナルな見出しを浮かび上がらせることでクリック数を最大化する方法を学習します。プロダクトマネージャーは人間によるレビューフラグを導入します。極端なコンテンツでクリック率が急上昇した場合、モデレーターはサンプルを精査し、アルゴリズムの報酬を調整して信頼できる販売店に優先順位を付け、システムが質の高いジャーナリズムの目標に沿ったものになるようにします。