Beobachtbarkeit
Die Fähigkeit, den internen Zustand und das Verhalten eines KI-Systems durch Erfassung und Analyse von Protokollen, Metriken und Ergebnissen abzuleiten, um eine effektive Überwachung und Fehlerbehebung zu ermöglichen.
Definition
Geht über die grundlegende Überwachung hinaus und bietet tiefe Einblicke in den Systemzustand. Observability-Pipelines sammeln strukturierte Protokolle (Anfragen, Fehler), Metriken (Latenz, Ressourcenverbrauch) und Traces (Ausführungspfade) von Datenaufnahme-, Schulungs- und Inferenzdiensten. Mithilfe von Korrelationen und Dashboards können Teams die Hauptursachen von Problemen ermitteln, Ereignisse wiedergeben und Post-Mortems durchführen. Die Unternehmensführung definiert, welche Signale erfasst werden müssen, welche Aufbewahrungsrichtlinien und Warnschwellen festgelegt werden, um die Zuverlässigkeit und Einhaltung von Vorschriften des Systems zu gewährleisten.
Real-World Example
Eine Betrugserkennungsplattform integriert OpenTelemetry, um Traces für jede Transaktion auszugeben, Modellentscheidungen mit Konfidenzwerten zu protokollieren und die CPU-/GPU-Auslastung zu verfolgen. Wenn die Latenz ansteigt, untersucht das SRE-Team die Traces, um eine langsame Feature-Store-Abfrage zu erkennen, korrigiert die Indizierung und stellt innerhalb von 15 Minuten die normale Leistung wieder her.