データ品質

正確さ、完全性、信頼性、関連性などの要素に基づくデータの状態は、効果的な AI モデルのパフォーマンスに不可欠です。

Definition

正確性(エラーなし)、完全性(欠損値なし)、一貫性(統一フォーマット)、適時性(最新)、関連性(目的に合う)などの多面的な尺度。データ品質プログラムでは、自動検証ルール、クレンジングパイプライン、品質ダッシュボードを導入し、指標がしきい値を下回った場合のエスカレーション手順も用意しています。

Real-World Example

信用リスクチームは、融資申請における収入と雇用の分野に関するデータ品質指標を追跡します。ミッシングバリュー率が 2% を超えると、自動アラートによってレビューが開始されます。データエンジニアは ETL スクリプトを修正し、最前線のスタッフに必須項目を適用するよう通知することで、モデルを再トレーニングする前にデータの完全性を回復します。