Distillation des connaissances

Méthode permettant de transférer les connaissances d'un modèle « enseignant » plus large vers un modèle « étudiant » plus restreint, en équilibrant les performances avec les contraintes en matière de ressources et de gouvernance.

Définition

Processus en deux étapes dans le cadre duquel un réseau d'élèves compact est entraîné à imiter les distributions de résultats (étiquettes souples) ou les représentations intermédiaires d'un modèle d'enseignant plus vaste et plus complexe. La distillation réduit la latence d'inférence, la consommation d'énergie et la surface d'attaque, ce qui est important pour le déploiement en périphérie ou les environnements réglementés. La gouvernance comprend la validation de l'équité et de la précision des modèles distillés, et la documentation de la recette de distillation à des fins d'audit et de reproductibilité.

Exemple concret

Un développeur d'applications mobiles distille un grand modèle d'analyse des sentiments basé sur Bert en une variante de TinyBERT adaptée à l'inférence sur l'appareil. Le modèle distillé conserve 98 % de la précision de l'enseignant tout en réduisant l'empreinte mémoire de 90 %. La documentation du processus de distillation est stockée dans le système de gestion des connaissances de l'entreprise pour les audits futurs.