オペレーショナル・レジリエンス

混乱や有害事象を予測し、耐え、回復し、適応するAIシステムとその支援インフラの能力。

Definition

冗長性 (フェイルオーバーサーバー)、災害復旧計画 (バックアップ、ウォームスタンバイクラスタ)、トラフィックの急増に対処するための自動スケーリング、およびシステムの堅牢性をテストするためのカオスエンジニアリングドリルが含まれます。ガバナンスには、レジリエンスSLA (RTO、RPO) の定義、定期的な訓練の実施、レジリエンス要件のシステム設計と調達への組み込みが必要です。

Real-World Example

クリティカルケアモニタリング用のヘルスケアAIは、2つの地域にまたがるアクティブ-アクティブクラウドデプロイメントで実行されます。一方の地域で障害が発生すると、トラフィックは他方の地域にシームレスに移行します。四半期ごとに実施されるカオステストでは、地域の障害をシミュレートし、1 分の SLA 内の自動フェイルオーバーを検証します。これにより、患者モニタリングが中断されることはありません。