KI-Ausrichtung

Der Prozess, bei dem sichergestellt wird, dass die Ziele und Verhaltensweisen der KI-Systeme auf menschliche Werte und Absichten abgestimmt sind.

Definition

Der kontinuierliche Prozess, bei dem sichergestellt wird, dass die Ziele, Belohnungsfunktionen und Entscheidungsgrenzen einer KI menschliche Ziele und ethische Normen widerspiegeln. Dazu sind technische Anpassungen, politische Leitplanken und menschliche Feedback-Schleifen erforderlich.

Real-World Example

Eine KI mit Nachrichtenempfehlungen lernt, Klicks zu maximieren, indem sie sensationelle Schlagzeilen veröffentlicht. Produktmanager führen eine Flagge ein, die von Menschen bewertet wird: Wenn die Klickraten bei extremen Inhalten in die Höhe schnellen, überprüfen Moderatoren die Stichproben und passen die Belohnung des Algorithmus an, um vertrauenswürdige Kanäle zu priorisieren und das System so an den Zielen des Qualitätsjournalismus auszurichten.