欠損データの処理
モデルの完全性と公平性を維持するためにデータセットのギャップに対処するための手法(代入、削除、モデリングなど)。
Definition
欠落があると、モデルにバイアスがかかったり、精度が低下したりする可能性があります。ガバナンスには、削除 (不完全なレコードの削除)、帰属 (平均、中央値、モデルベース)、明示的な欠損指標特徴などの戦略が含まれます。それぞれの選択肢を文書化し、それが下流の公平性に与える影響を評価し、欠損値を本番環境でも一貫して処理できるようにパイプラインを構成する必要があります。
Real-World Example
信用リスクデータセットには 15% の収入値が欠落しています。チームは平均代入、KNN 代入、予測代入モデルを比較しています。彼らは KNN 代入 (最も低い RMSE) を選択し、「was_income_missing」という二項特徴を追加して、この代入が恵まれないグループの承認率を歪めないことを検証しました。