勾配降下法とは？仕組みと要点をわかりやすく解説

何を解いているのか

機械学習では、予測と正解のズレを表す損失関数を定義し、その値ができるだけ小さくなるようにモデルのパラメータ（重み）を調整します。勾配降下法は、この「損失を最小化する」という最適化問題を解くための代表的な手法です。

イメージは霧の中で山を下る登山者です。足元の傾き（勾配）だけを頼りに、最も急に下る方向へ一歩ずつ進み、谷（損失の最小値）を目指します。

各パラメータについて損失関数の勾配（偏微分）を求め、勾配と逆向きに値を動かします。基本の更新式は次の形です。

新しい重み = 現在の重み - 学習率 × 勾配

勾配は「損失が最も増える方向」を指すので、その逆へ進めば損失は減ります。これを何度も繰り返し、勾配がほぼゼロになる点に近づけていきます。

横にスクロール

勾配降下法では、損失から求めた勾配の逆向きへ重みを更新します。学習率が小さすぎると遅く、大きすぎると谷を飛び越えるため、まず学習率を疑うのが実務上の基本です。

学習率は1回の更新でどれだけ進むかを決める係数で、最も重要なハイパーパラメータの一つです。

適切な値は問題ごとに異なるため、試行錯誤や学習率スケジュール（途中で徐々に下げる）で調整します。

学習率はまず疑う

学習がうまくいかないとき、損失が発散したり全く下がらない場合は、まず学習率の大きさを見直すと原因が見つかることが多いです。

勾配を計算するときに使うデータ量によって呼び方が変わります。

実務ではミニバッチが標準で、計算効率と収束の安定性の折り合いが取りやすいためです。

損失の地形には谷が複数あり、本当の最小値（大域解）ではない局所解や、平らで進みにくい鞍点に止まってしまうことがあります。

ミニバッチによるノイズはこうした地点から抜け出す助けになります。また、過去の更新方向を加味するモメンタムや、パラメータごとに学習率を調整する Adam などの改良版が広く使われており、収束を速く安定させてくれます。まずはこうした標準的な最適化手法から試すのが実用的です。