Données synthétiques

Ensembles de données générés artificiellement qui imitent les distributions de données réelles, utilisés pour augmenter les ensembles de formation tout en protégeant la confidentialité.

Définition

Données créées par des méthodes génératives (GAN, VAE, simulation) qui reproduisent les propriétés statistiques (corrélations de caractéristiques, distributions, fréquences d'événements rares) d'ensembles de données réels sans exposer d'informations personnelles ou exclusives réelles. Les données synthétiques permettent la formation dans le respect des contraintes de confidentialité et de conformité, mais leur fidélité et l'absence d'artefacts doivent être validées. La gouvernance nécessite des mesures pour la qualité des données synthétiques, le suivi de la provenance et les restrictions relatives au mixage synthétique/réel.

Exemple concret

Une institution financière utilise un GAN pour générer des enregistrements de transactions synthétiques qui reflètent les modèles de son ensemble de données réel. Les analystes ont confirmé que les fréquences des modèles de fraude correspondaient aux données d'origine. L'ensemble de données synthétiques a permis à des chercheurs externes d'expérimenter sans compromettre la confidentialité des clients.