Leitplanken
Vordefinierte Einschränkungen oder Prüfungen (technische und politische), die in KI-Systeme eingebettet sind, um unsicheres oder nicht konformes Verhalten während der Laufzeit zu verhindern.
Definition
Verteidigungsebenen — sowohl algorithmisch (Vertrauensschwellen, Eingabedesinfektion, gegnerische Detektoren) als auch verfahrenstechnisch (Genehmigungstore, menschliche Interaktion) —, die politische Grenzen durchsetzen. Leitplanken schränken die Ergebnisse ein (z. B. keine Hassreden), schränken Entscheidungsbereiche ein und lösen ausfallsichere Maßnahmen aus. Eine wirksame Steuerung der Schutzmaßnahmen erfordert die Überprüfung und Aktualisierung der Beschränkungen, sobald neue Bedrohungen auftauchen, und die Überwachung von Umgehungsversuchen.
Real-World Example
Eine KI zur Inhaltsmoderation verfügt über Leitplanken, die Obszönitäten und extremistische Inhalte blockieren. Wenn die Zuverlässigkeit des NLP-Filters unter 70% liegt, leitet das System den Beitrag an einen menschlichen Moderator weiter, anstatt ihn automatisch zu posten. So wird sichergestellt, dass unsichere Inhalte niemals unbemerkt in den Feed gelangen.