合成データ

実際のデータ分布を模倣した人工的に生成されたデータセット。プライバシーを保護しながらトレーニングセットを拡張するために使用されます。

Definition

実際の個人情報や専有情報を公開することなく、実際のデータセットの統計的特性(特徴の相関、分布、まれなイベントの頻度)を再現する生成的方法(GAN、VAE、シミュレーション)によって作成されたデータ。合成データは、プライバシーやコンプライアンス上の制約下でのトレーニングに役立ちますが、正確でアーティファクトがないことを検証する必要があります。ガバナンスには、合成データの品質に関する指標、出所の追跡、合成データ/実際の混合の制限などが必要です。

Real-World Example

金融機関は GAN を使用して、実際のデータセットのパターンを反映した合成トランザクションレコードを生成します。アナリストは、不正パターンの頻度が元のデータと一致していることを検証しました。合成データセットにより、外部の研究者は顧客のプライバシーを危険にさらすことなく実験することができました。