不均衡なデータ
あるクラスまたはカテゴリが他のクラスまたはカテゴリを大幅に上回っているデータセットは、緩和されない限り、AI モデルがマジョリティクラスに偏る可能性があります。
Definition
ターゲットカテゴリ (例:詐欺対合法) が均等に表現されていないため、モデルが大多数のクラスを優先し、まれではあるが重大なケースを見落とす原因となる場合に発生します。緩和手法には、リサンプリング (少数派のオーバーサンプリング、多数派のアンダーサンプリング)、合成データ生成 (SMOTE)、クラスウェイト調整の使用などがあります。ガバナンスには、クラス分布の監視、クラスごとのパフォーマンスの追跡、緩和策の選択肢とその効果の文書化が必要です。
Real-World Example
銀行の不正検出データセットには、0.5% の不正事例が含まれています。データサイエンスチームは、監査とコンプライアンスのプロセスを文書化しながら、SMOTEをオーバーサンプリングした不正事例に適用し、クラス加重損失のモデルを再トレーニングし、不正リコール率を 60% から 85% に引き上げました。