Ausrichtung der Anreize
Die Gestaltung von Belohnungsstrukturen und -zielen, sodass die Ziele der KI-Systeme mit den menschlichen Werten und organisatorischen Prioritäten übereinstimmen.
Definition
Die Praxis, Ziel- oder Belohnungsfunktionen zu entwickeln, die gewünschte Verhaltensweisen fördern (z. B. Sicherheit, Fairness) und perverse Anreize vermeiden. Dazu gehören menschliche Feedback-Schleifen, eingeschränkte Optimierung (z. B. sichere RL) und regelmäßige Audits, um sicherzustellen, dass die von der KI erlernten Anreize nicht von den Absichten der Stakeholder abweichen.
Real-World Example
Eine KI mit Inhaltsempfehlungen maximierte ursprünglich die Wiedergabezeit, was zu Clickbait führte. Das Produktteam fügt eine zweite Belohnung für „Inhaltsvielfalt“ hinzu und bestraft sensationelle Schlagzeilen. Nach der Bereitstellung sinkt die Clickbait-Zuschauerzahl um 50% und die allgemeine Nutzerbindung steigt, was auf eine bessere Abstimmung der Anreize zurückzuführen ist.