Alignement des incitations

La conception de structures de récompense et d'objectifs afin que les objectifs des systèmes d'IA restent cohérents avec les valeurs humaines et les priorités organisationnelles.

Définition

Pratique qui consiste à créer des fonctions d'objectif ou de récompense qui encouragent les comportements souhaités (par exemple, sécurité, équité) et évitent les incitations perverses. Cela implique des boucles de rétroaction humaine, une optimisation limitée (par exemple, une RL sécurisée) et des audits périodiques pour s'assurer que les incitations apprises par l'IA ne divergent pas des intentions des parties prenantes.

Exemple concret

À l'origine, une IA de recommandation de contenu maximisait la durée de visionnage, ce qui a donné lieu à un appât à clics. L'équipe produit ajoute une récompense secondaire pour la « diversité du contenu » et pénalise les gros titres sensationnels. Après le déploiement, l'audience des clickbait chute de 50 % et l'engagement global des utilisateurs augmente, ce qui reflète un meilleur alignement des incitations.