Erklärbarkeit versus Interpretierbarkeit
Während beide darauf abzielen, KI-Entscheidungen verständlich zu machen, konzentriert sich die Erklärbarkeit auf die Argumentation hinter Entscheidungen, wohingegen sich Interpretierbarkeit auf die Transparenz der internen Mechanik des Modells bezieht.
Definition
Interpretierbarkeit: Klarheit darüber, wie interne Modellkomponenten (Gewichte, Merkmale) den Ergebnissen zugeordnet werden — häufig bei einfachen Modellen (lineare Regression). Erklärbarkeit: Post-hoc-Generierung von menschenfreundlichen Begründungen (warum eine Entscheidung getroffen wurde) für jedes Modell, auch für Blackboxen. Unternehmensführung erfordert die Wahl des richtigen Gleichgewichts: interpretierbare Modelle, wo möglich, und Erklärbarkeitswerkzeuge, wenn nicht.
Real-World Example
Eine Bank wählt ein logistisches Regressionsmodell für die Kreditbewertung aufgrund seiner Interpretierbarkeit (die Koeffizienten zeigen direkt die Auswirkungen auf die Merkmale). Für ihren bildbasierten Betrugsdetektor (ein neuronales Netz) verwendet sie Erklärbarkeit (Salienzkarten), da das Modell selbst nicht von Natur aus interpretierbar ist.