オブザーバビリティ
ログ、指標、出力の収集と分析を通じてAIシステムの内部状態と動作を推測し、効果的な監視とトラブルシューティングを行う機能。
Definition
基本的な監視にとどまらず、システムの状態に関する深い洞察を提供します。オブザーバビリティパイプラインは、データ取り込み、トレーニング、推論サービスから、構造化されたログ (リクエスト、エラー)、メトリクス (レイテンシー、リソース使用量)、トレース (実行パス) を収集します。相関関係とダッシュボードを使用することで、チームは問題の根本原因の特定、イベントの再生、事後分析を行うことができます。ガバナンスは、システムの信頼性とコンプライアンスを維持するために、どのシグナルを捉えるべきか、リテンションポリシー、アラート閾値を定義します。
Real-World Example
不正検出プラットフォームはOpenTelemetryを統合して、すべてのトランザクションのトレースを生成し、モデルの決定を信頼スコアで記録し、CPU/GPUの使用状況を追跡します。レイテンシーが急上昇すると、SRE チームはトレースを掘り下げて処理が遅いフィーチャストアクエリを発見し、インデックス作成を修正して 15 分以内に通常のパフォーマンスを回復します。