Descente en pente

Algorithme d'optimisation qui ajuste de manière itérative les paramètres du modèle dans le sens d'une diminution minimale de la fonction de perte.

Définition

La technique fondamentale pour l'entraînement des réseaux neuronaux et de nombreux autres modèles. Il calcule les gradients de la perte par rapport aux paramètres et les met à jour via un taux d'apprentissage. Les variantes incluent des méthodes par lots, stochastiques et adaptatives (Adam, RMSProp). La gouvernance comprend le suivi du comportement de convergence, la définition de calendriers de taux d'apprentissage appropriés, la détection des gradients d'explosion/disparition et l'enregistrement des cycles de formation à des fins de reproductibilité et d'audit.

Exemple concret

Une équipe de recherche sur l'apprentissage profond utilise Adam (une variante adaptative de descente dégradée) pour entraîner un modèle de langage. Ils enregistrent les changements de taux d'apprentissage, les normes de gradient et les courbes de perte sur une plateforme de suivi ML-Experiment, ce qui leur permet de reproduire un point de contrôle de haute qualité et de diagnostiquer rapidement les instabilités d'entraînement.