稼働時間監視
AIシステムの可用性とパフォーマンスを継続的に追跡して、重要な業務やコンプライアンス義務に影響を与える可能性のある機能停止や機能低下を検出します。
Definition
ヘルスチェックエンドポイント、合成トランザクション、およびインフラストラクチャプローブを通じてサービスレベルの指標(稼働率、平均回復時間、エラー率)を収集する重要な信頼性プラクティスです。アラートと自動フェイルオーバーメカニズムにより、サービスの中断に迅速に対応できます。ガバナンスでは、許容できるSLAを定義し、紛争解決のための稼働時間ログの保持を行い、復旧プロセスをテストするための定期的な訓練を実施します。
Real-World Example
不正検出APIは、模擬テストトランザクションを通じて毎分99.9%の稼働率を追跡します。応答が失敗したことを検出すると、自動アラートがオンコールエンジニアにページを送り、トラフィックをホットスタンバイクラスターにリダイレクトします。これにより、銀行顧客の継続的な不正防止が保証されます。