Ausrichtung der Anreize

Die Gestaltung von Belohnungsstrukturen und -zielen, sodass die Ziele der KI-Systeme mit den menschlichen Werten und organisatorischen Prioritäten übereinstimmen.

Definition

Die Praxis, Ziel- oder Belohnungsfunktionen zu entwickeln, die gewünschte Verhaltensweisen fördern (z. B. Sicherheit, Fairness) und perverse Anreize vermeiden. Dazu gehören menschliche Feedback-Schleifen, eingeschränkte Optimierung (z. B. sichere RL) und regelmäßige Audits, um sicherzustellen, dass die von der KI erlernten Anreize nicht von den Absichten der Stakeholder abweichen.

Real-World Example

Eine KI mit Inhaltsempfehlungen maximierte ursprünglich die Wiedergabezeit, was zu Clickbait führte. Das Produktteam fügt eine zweite Belohnung für „Inhaltsvielfalt“ hinzu und bestraft sensationelle Schlagzeilen. Nach der Bereitstellung sinkt die Clickbait-Zuschauerzahl um 50% und die allgemeine Nutzerbindung steigt, was auf eine bessere Abstimmung der Anreize zurückzuführen ist.