Ensemble de données de formation

Collection organisée de données étiquetées ou non étiquetées utilisée pour enseigner à un modèle d'IA les relations et les modèles qu'il doit apprendre pour accomplir sa tâche.

Définition

Un actif géré par la gouvernance qui est soumis à des contrôles de qualité (exactitude, exhaustivité, représentativité), à des examens de confidentialité (nettoyage des informations personnelles) et à des évaluations de biais avant utilisation. Les ensembles de données de formation sont versionnés, catalogués avec des métadonnées (source, horodatage, responsable) et stockés en toute sécurité. Les politiques de gouvernance garantissent que les mises à jour des ensembles de données déclenchent la revalidation et que le lignage des ensembles de données est traçable pour favoriser la reproductibilité et la conformité.

Exemple concret

Une équipe de véhicules autonomes gère un ensemble de données étiquetées sur les scènes routières collectées dans diverses zones géographiques. Avant d'ajouter de nouvelles données, ils vérifient automatiquement la cohérence de l'étiquetage, suppriment les PII (plaques d'immatriculation) et mettent à jour le registre des ensembles de données. Les modèles font référence à des versions de jeux de données spécifiques, garantissant ainsi que les entrées de formation sont entièrement vérifiables.