Synthetische Daten

Künstlich generierte Datensätze, die reale Datenverteilungen nachahmen, werden verwendet, um Trainingseinheiten zu erweitern und gleichzeitig die Privatsphäre zu schützen.

Definition

Daten, die mit generativen Methoden (GANs, VAEs, Simulation) erstellt wurden und statistische Eigenschaften — Merkmalskorrelationen, Verteilungen, Häufigkeit seltener Ereignisse — realer Datensätze replizieren, ohne tatsächliche persönliche oder urheberrechtlich geschützte Informationen preiszugeben. Synthetische Daten eignen sich für Schulungen unter Datenschutz- und Compliance-Auflagen, müssen jedoch im Hinblick auf Genauigkeit und Artefaktfreiheit validiert werden. Die Unternehmensführung erfordert Messwerte für die Qualität synthetischer Daten, die Nachverfolgung der Herkunft und Einschränkungen beim Mischen synthetischer und echter Daten.

Real-World Example

Ein Finanzinstitut verwendet ein GAN, um synthetische Transaktionsdatensätze zu generieren, die die Muster seines realen Datensatzes widerspiegeln. Analysten bestätigten, dass die Häufigkeit der Betrugsmuster den Originaldaten entsprach. Der synthetische Datensatz ermöglichte es externen Forschern, zu experimentieren, ohne die Privatsphäre der Kunden zu gefährden.