ラベル漏れ

意図せず出力情報をトレーニングデータラベルに含めてしまうと、パフォーマンスメトリクスが膨らみ、モデルの一般化に関する真の問題が隠されてしまう可能性があります。

Definition

フィーチャーが誤ってターゲットラベル (タイムスタンプや完全に相関するIDなど) をエンコードし、モデルが実際のパターンを学習するよりも「ごまかす」場合に発生します。ラベルが漏れると、検証スコアが過度に楽観的になり、結果として生産が失敗します。ガバナンスには、機能エンジニアリングにおける漏洩を防ぐための厳密な機能ラベル相関分析、異なる時間枠のテストセットの保留化、パイプラインチェックが必要です。

Real-World Example

解約予測データセットには、顧客が離脱した後にのみラベル付けされた「cancellation_reason」列が含まれており、解約を完全に予測できます。このリークを発見すると、チームは列を削除し、事前キャンセル機能のみを使用して再トレーニングを行い、まったく新しいコホートでパフォーマンスを検証します。これにより、真の予測力が明らかになります。