グラデーションディセント
損失関数を最小限に抑える方向にモデルパラメーターを繰り返し調整する最適化アルゴリズム。
Definition
ニューラルネットワークやその他の多くのモデルをトレーニングするための基本テクニック。パラメータを基準に損失の勾配を計算し、学習率で更新します。バリアントには、バッチ法、確率法、適応法 (Adam、RMSProp) があります。ガバナンスには、コンバージェンス行動の追跡、適切な学習率スケジュールの設定、急激な変化/消失傾向の検出、再現性と監査のためのトレーニング実行の記録などが含まれます。
Real-World Example
ディープラーニングの研究チームは、Adam(適応型勾配降下法)を使用して言語モデルをトレーニングしています。学習率の変化、勾配ノルム、損失曲線をML-Experiment追跡プラットフォームに記録することで、質の高いチェックポイントを再現し、トレーニングの不安定性を迅速に診断できるようになりました。