特徴抽出

生データ (テキスト、画像など) を ML アルゴリズムへの入力に適した数値表現 (特徴) にマッピングするプロセス。

Definition

テキストにはTF-IDF、画像にはSIFT、音声にはスペクトル特徴などの手法を使用して、非構造化データを固定長のベクトルに自動またはアルゴリズム主導で変換します。最新のアプローチには、学習済み埋め込み (BERT、Word2Vec) などがあります。ガバナンスは、抽出方法がドメイン全体で一般化され、機密情報が漏洩せず、データのドリフトや敵対的な混乱に対しても堅牢であることを検証する必要があります。

Real-World Example

音声テキスト変換システムは、MEL 周波数ケプストラル係数 (MFCC) を使用して未加工の波形からオーディオの特徴を抽出します。これらの特徴はニューラルネットワークに送られ、最先端の単語誤り率を実現しています。チームは MFCC の分布を経時的に監視して、導入されたデバイスにおけるマイクドリフトの問題を検出します。