Erklärbarkeit des Modells

Techniken und Dokumentationen, die die Entscheidungslogik eines KI-Modells für Stakeholder und Auditoren verständlich machen.

Definition

Eine Kombination aus inhärenten (interpretierbare Modelle) und Post-hoc-Methoden (SHAP, LIME, kontrafaktische) Methoden, die Merkmalsbedeutungen, Entscheidungsregeln oder alternative Ergebnisszenarien aufdecken. Die Steuerung erfordert die Auswahl von Erklärbarkeitstechniken, die für das Modell und die Zielgruppe geeignet sind, die Einbettung von Erklärungen in Benutzeroberflächen oder Compliance-Berichten und die Überprüfung, ob die Erklärungen das Modellverhalten korrekt widerspiegeln.

Real-World Example

Ein Kreditkartenbetrugsmodell liefert SHAP-Erklärungen zu jeder Warnung: „Hauptfaktoren: ungewöhnlicher Standort, atypische Transaktionsgröße.“ Betrugsanalysten verwenden diese Erklärungen, um Warnmeldungen effektiver zu analysieren, und die Aufsichtsbehörden überprüfen die SHAP-Berichte bei Compliance-Inspektionen.