Données hétérogènes
La combinaison de données de différents types (texte, image, capteur) ou provenant de plusieurs domaines pose des problèmes d'intégration et de gouvernance.
Définition
Les ensembles de données multimodaux et multisources nécessitent une harmonisation des formats, des schémas et des contrôles de qualité. La gouvernance doit définir des normes de métadonnées unifiées, garantir un prétraitement cohérent (normalisation, encodage) et gérer le lignage entre les pipelines. Il est essentiel de remédier aux incohérences sémantiques et aux modèles de valeurs manquantes pour préserver l'intégrité et l'équité des données lors de la formation de systèmes d'IA multimodaux.
Exemple concret
Un projet de véhicule autonome fusionne des nuages de points LIDAR, des images de caméras et des flux GPS. Une équipe de gouvernance des données crée un registre de schémas multimodal, applique les règles de synchronisation de l'horodatage et suit la provenance afin que toute erreur de détection puisse être retracée jusqu'à la version exacte des données du capteur et aux étapes de prétraitement.