Interpretierbarkeit
Der Grad, in dem ein Mensch die interne Mechanik oder die Entscheidungsgründe eines KI-Modells verstehen kann.
Definition
Bezieht sich auf die inhärente Transparenz der Modellstruktur — z. B. lineare Modelle oder Entscheidungsbäume, bei denen Feature-Auswirkungen direkt den Ergebnissen zugeordnet werden. Die Steuerung der Interpretierbarkeit fördert interpretierbare Modelle für Anwendungsfälle mit hohem Risiko, dokumentiert die Modelllogik klar und beschränkt undurchsichtige Modelle auf Bereiche mit geringerem Risiko oder kombiniert sie mit Post-hoc-Erklärungsmethoden.
Real-World Example
Ein Kreditbewertungsteam entscheidet sich für ein Entscheidungsbaummodell für erste Kreditgenehmigungen, da jede Aufteilung direkt interpretiert werden kann („Einkommen > 50.000 USD“). Sie veröffentlichen die Baumlogik für alle Beteiligten, wodurch eine vollständige Interpretierbarkeit gewährleistet und behördliche Überprüfungen erleichtert werden.