フォールトトレランス
一部のコンポーネントに障害が発生したりエラーが発生したりした場合でも、AI システムが正常に動作し続ける能力。
Definition
部分的な障害が発生した場合でも、AIサービスの可用性と安全性を維持するためのアーキテクチャパターン(冗長コンポーネント、グレースフルデグレーション、チェックポイント、トランザクションロールバック)が必要です。ガバナンスでは、障害注入テスト (カオスエンジニアリング)、障害モード分析、復旧時間とサービス継続性に関する明確なサービスレベル目標が定められています。
Real-World Example
クラウドベースのイメージ分類 API は、ロードバランサーの背後にある複数のコンテナインスタンスで実行されます。大規模なイベント中に 1 つのインスタンスがクラッシュした場合、トラフィックは自動的に正常なポッドに移り、クラッシュしたインスタンスはユーザーに影響を与えることなく再起動します。運用チームは定期的にカオステストを行い、フォールトトレランスのメカニズムを検証しています。