Contrôle de version

Pratique qui consiste à gérer et à suivre les modifications apportées au code, aux modèles et aux ensembles de données d'IA au fil du temps afin de garantir la reproductibilité et l'auditabilité.

Définition

Implique l'utilisation de systèmes tels que Git pour le code, DVC ou LakeFS pour les données, et des outils de registre de modèles pour les versions d'artefacts. Chaque modification (scripts d'ingénierie des fonctionnalités, paramètres d'hyperparamètres, instantanés de jeux de données, fichiers binaires de modèles entraînés) est balisée et documentée. Le contrôle de version permet la restauration, la gestion des succursales à des fins d'expérimentation et la traçabilité complète de la façon dont un modèle de production a été dérivé.

Exemple concret

Une équipe des services financiers stocke son code de prétraitement dans Git, suit les ensembles de données bruts et nettoyés via DVC et enregistre chaque modèle entraîné dans MLflow avec ses paramètres et la version des données d'entrée. Lorsque des anomalies apparaissent, ils peuvent reproduire exactement n'importe quelle version précédente du modèle, ce qui facilite à la fois le débogage et la conformité aux audits.