根本原因分析
AIシステムの障害や予期せぬ行動の根本的な原因を特定し、是正措置の指針となる体系的な調査。
Definition
障害イベント (モデルの誤分類、システム停止など) をデータパイプライン、モデルロジック、インフラストラクチャの各層までさかのぼって追跡し、主要な欠陥を特定する、インシデント後の方法論 (5 つの理由、フィッシュボーン図)。根本原因分析により、調査結果と改善計画が文書化され、是正措置によってシステム上の問題に対処し、再発を防止できます。ガバナンスでは、重大度の高いインシデントにはRCAが必要であり、その結果を経営幹部がレビューする必要があります。
Real-World Example
レコメンデーションエンジンが不適切なコンテンツを提案し始めた後、チームは根本原因分析を行いました。データ取り込みスクリプトがテストデータと本番データを統合し、トレーニングを歪めていることがわかりました。スクリプトを修正し、モデルを再検証し、取り込みパイプラインにユニットテストを追加することで、将来的に環境間汚染が発生するリスクを排除しました。