Gestion des quotas
Les contrôles et les limites imposés à l'utilisation des ressources d'IA (par exemple, les appels d'API, le temps de calcul) pour appliquer les politiques de gouvernance et prévenir les coûts excessifs ou les abus.
Définition
Met en œuvre des restrictions, des limites de débit et des plafonds quotidiens ou mensuels sur la consommation de ressources par utilisateur, équipe ou application. Les quotas protègent contre le déni de service, les dépenses incontrôlées et les attaques par extraction de modèles. La gouvernance définit des politiques de quotas alignées sur les SLA et les budgets, surveille les tableaux de bord d'utilisation et notifie automatiquement ou bloque les utilisateurs lorsque les seuils sont atteints, garantissant ainsi une utilisation équitable et une prévisibilité des coûts.
Exemple concret
Un organisme de recherche fixe un quota mensuel d'heures GPU de 100 heures par projet. Lorsqu'un projet dépasse les 80 heures, une notification automatique envoie un e-mail au chef d'équipe ; à 100 heures, les tâches de formation supplémentaires sont mises en attente jusqu'à ce que les augmentations de quotas soient approuvées, ce qui permet d'éviter des frais de cloud imprévus et des conflits de ressources.