正則化（過学習対策）とは？仕組みと要点をわかりやすく解説

過学習は、モデルが訓練データを「覚えすぎて」未知データで外す現象です。正則化は、これを防ぐためにモデルが必要以上に複雑になることへ意図的に罰を与える手立ての総称を指します。

なぜ「複雑さに罰則」を与えるのか

機械学習の学習とは、本来「予測の誤差を小さくする」ことを目指す作業です。ところが表現力の高いモデルは、誤差を限界まで小さくしようとして、データのノイズや偶然の偏りまで律儀に拾い上げてしまいます。これが過学習です。

正則化では、学習の目標に「モデルを複雑にしすぎない」という第二の目標を足します。つまり、

この2つを天秤にかけることで、モデルは「データに合わせつつ、なるべくシンプルに保つ」方向へ誘導されます。複雑さを抑えると、訓練データの細部に振り回されにくくなり、結果として未知データでも崩れにくいモデルになります。

横にスクロール

正則化は、訓練誤差を少し許す代わりに重みの複雑さを抑え、未知データでの崩れにくさを狙います。L1は不要な重みをゼロにしやすく、L2は大きな重みを中心に全体を滑らかに縮めます。

“ちょうど良い単純さ” を探す調整

罰則を強くしすぎると、今度はモデルが単純になりすぎて訓練データの傾向すら捉えられない未学習に陥ります。正則化は「効かせる強さ」をハイパーパラメータで調整し、過学習と未学習のあいだのちょうど良い点を探す営みだと捉えると分かりやすいです。

最も基本的な正則化が、パラメータ（重み）が大きくなりすぎたら罰則を加えるやり方です。重みが大きいほど、その特徴に強く反応する＝モデルが複雑にとがる、と考えられるため、重みを抑えると挙動がなめらかになります。

学習で最小化する量のイメージ

  L2:  予測の誤差  +  λ × (重みを二乗して合計)
  L1:  予測の誤差  +  λ × (重みの絶対値を合計)

  λ（ラムダ）：罰則の強さを決めるつまみ。大きいほど強く効く。

L1 と L2 は罰則の与え方が異なり、もたらす効果も変わります。

要点は、L2 は重みを全体的に小さくしてモデルをなめらかに保ち、L1 は不要な重みをゼロに寄せるため、実質的に「重要な特徴だけを選ぶ」働きをすることです。

ニューラルネットワークでは、重みへの罰則以外にも独自の正則化がよく使われます。

ドロップアウト：学習のたびに、一部のニューロンをランダムに無効化します。特定の経路に頼り切るのを防ぎ、頑健な特徴を学ばせる狙いです。「いつもの仲間が休んでも回るチーム」を作るイメージです。
早期終了 (early stopping)：学習を進めるほど訓練の精度は上がり続けますが、検証データの精度はどこかで悪化に転じます。その乖離が開き始める直前で学習を打ち切るのが早期終了です。暗記モードに入る前に止める、手軽で強力な方法です。
データ拡張：直接の罰則ではありませんが、データ拡張で訓練データの多様性を増やすことも、丸暗記を困難にする点で正則化と同じ役割を果たします。

ドロップアウトは “学習時だけ”

ドロップアウトはあくまで学習中に頑健さを鍛えるための仕組みで、実際に予測する推論時にはすべてのニューロンを使います。「学習時はわざと一部を休ませ、本番では全員で臨む」と覚えておくと、挙動を取り違えずに済みます。

正則化は複数を組み合わせて使うのが普通で、どれも狙いは「モデルを必要以上に複雑にさせない／一部に頼らせない」ことで共通しています。

凝った正則化を積む前に、まずはデータ拡張で多様性を増やし、早期終了で回しすぎを止める——この素直な順番が遠回りしないコツです。