Extraction de fonctionnalités

Processus consistant à mapper des données brutes (par exemple, du texte, des images) en représentations numériques (caractéristiques) pouvant être saisies dans des algorithmes de machine learning.

Définition

Transformation automatisée ou pilotée par algorithme de données non structurées en vecteurs de longueur fixe, à l'aide de techniques telles que TF-IDF pour le texte, SIFT pour les images ou caractéristiques spectrales pour le son. Les approches modernes incluent les intégrations apprises (BERT, Word2Vec). La gouvernance doit valider que les méthodes d'extraction sont généralisées dans tous les domaines, ne divulguent pas d'informations sensibles et restent résistantes à la dérive des données ou aux perturbations contradictoires.

Exemple concret

Un système de synthèse vocale utilise des coefficients cepstraux de fréquence Mel (MFCC) pour extraire les caractéristiques audio des formes d'onde brutes. Ces fonctionnalités alimentent un réseau neuronal qui atteint des taux d'erreur de mots de pointe. L'équipe surveille les distributions MFCC au fil du temps afin de détecter les problèmes de dérive des microphones dans les appareils déployés.