Alignement des IA

Processus visant à garantir que les objectifs et les comportements des systèmes d'IA sont conformes aux valeurs et aux intentions humaines.

Définition

Le processus continu visant à garantir que les objectifs, les fonctions de récompense et les limites de décision d'une IA reflètent les objectifs humains et les normes éthiques, nécessitant des correctifs techniques, des garanties politiques et des boucles de rétroaction humaines.

Exemple concret

Une IA de recommandation d'actualités apprend à maximiser les clics en faisant apparaître des titres sensationnels. Les chefs de produit introduisent un indicateur d'évaluation humaine : lorsque les taux de clics augmentent en raison d'un contenu extrême, les modérateurs vérifient les échantillons et ajustent la récompense de l'algorithme pour donner la priorité aux médias fiables, afin de maintenir le système aligné sur les objectifs de journalisme de qualité.