トレーニングデータセット

AIモデルにタスクを実行するために学習する必要のある関係とパターンを教えるために使用される、ラベル付きまたはラベルなしデータの精選されたコレクション。

Definition

ガバナンスが管理する資産で、使用前に品質チェック(正確性、完全性、代表性)、プライバシーレビュー(PIIスクラビング)、およびバイアス評価が行われます。トレーニングデータセットはバージョン管理され、メタデータ (ソース、タイムスタンプ、スチュワード) とともにカタログ化され、安全に保存されます。ガバナンスポリシーにより、データセットの更新が再検証のきっかけとなり、データセットの系統を追跡して再現性とコンプライアンスを維持できるようになっています。

Real-World Example

自動運転車のチームは、さまざまな地域から収集されたラベル付きの道路シーンデータセットを管理しています。新しいデータを追加する前に、ラベルの一貫性を自動的にチェックし、PII (ナンバープレート) を削除し、データセットレジスターを更新します。モデルは特定のデータセットバージョンを参照し、トレーニングの入力内容が完全に監査可能であることを確認します。