ラベル平滑化と正則化テクニックの数理

ハードラベルが過信を生む仕組み

分類の標準的な学習は、正解クラスだけ確率1・他は0という**ハードラベル（one-hot）**に対して交差エントロピーを最小化します。出力 q = softmax(z)、正解クラスを y とすると、損失は L = −log q_y です。ここで本質的な問題が起きます。q_y は厳密には1に到達できません。q_y → 1 には正解ロジット z_y と他ロジット z_k の差を無限大に飛ばす必要があるからです。

q_y = exp(z_y) / Σ_k exp(z_k)

q_y → 1 になるのは  z_y − max_{k≠y} z_k → +∞  のときだけ。

つまりハードラベルの目標は達成不能な無限点です。分類はとっくに正しくなっているのに、損失はまだ下がる余地を残すため、勾配は正解ロジットを際限なく引き上げ続けます。結果として最大確率が1へ張り付き、出力が過信気味になります。これは現代の深層ネットで較正が悪化する主因の一つで、詳しくはモデルキャリブレーションと不確実性推定を参照してください。

勾配の形で見る押し上げの力

交差エントロピー＋ソフトマックスのロジットに対する勾配は ∂L/∂z_k = q_k − t_k（t は目標分布）です。ハードラベルでは t_y = 1 なので ∂L/∂z_y = q_y − 1 となり、q_y が1に近づくまで勾配はゼロになりません。正解ロジットを上げ続ける駆動力が、学習の最後まで消えないわけです。

ラベル平滑化の定義と効果

**ラベル平滑化（label smoothing）**は、ハードラベルを少しだけ崩します。クラス数を K、平滑化係数を ε（典型は0.1）として、目標分布を次のように作ります。

t_y = 1 − ε                （正解クラス）
t_k = ε / (K − 1)          （正解以外の各クラス）

正解の確率を 1−ε まで下げ、残りを他クラスへ均等に配ります。この一手で先ほどの勾配 ∂L/∂z_y = q_y − t_y の停止点が q_y = 1−ε へ移ります。目標が有限の確率になったため、正解ロジットを無限に押し上げる力が止まり、過信が原理的に抑えられます。

実装は損失の差し替えだけで、推論時の構造は変わりません。一般的な正則化との位置づけは正則化（過学習対策）で整理した通りで、ラベル平滑化は重みではなく目標分布側に罰則をかける変種だと捉えると見通しが良くなります。

観点	ハードラベル	ラベル平滑化
正解の目標確率	1（到達不能）	1−ε（有限・到達可能）
ロジットの挙動	差が無限に発散	差が一定マージンへ収束
較正	過信になりやすい	ECEが下がりやすい
表現の幾何	クラスタが広がる	等距離の固いクラスタ
副作用	なし	蒸留の教師には不向きな場合あり

ロジット間マージンとクラス表現の幾何

平滑化が「過信を抑える」だけでなく、最適ロジットの形そのものを定める点が数理の核心です。平滑化された目標に対する交差エントロピーは、出力 q を目標 t に一致させたときに最小化されます。q = t を満たすロジットを逆算すると、正解ロジットと他ロジットの差が一定値に固定されます。

最適点では  q_y = 1−ε,  q_k = ε/(K−1)

ソフトマックスを逆に解くと、正解と他クラスのロジット差は
  z_y − z_k = log( (1−ε)(K−1) / ε )   （定数マージン）

正解ロジットは無限大ではなく、この有限のマージンだけ他より高い位置で釣り合います。さらに誤りクラス同士は目標が全部 ε/(K−1) で等しいため、それらのロジットを互いに引き離す力が消え、正解以外は同じ高さへ揃えられます。

この力は表現空間の幾何に直接効きます。最終層の重みベクトルを各クラスのテンプレートとみなすと、ロジットは特徴とテンプレートの内積です。平滑化は「正解テンプレートとは一定マージンで近く、それ以外の全テンプレートとは等しく遠い」配置を要求します。結果として、各クラスの特徴は正則三角形（シンプレックス）状に等距離で並んだ、タイトなクラスタへ収束します。Müllerらは、ハードラベルだと同クラス内でも特徴が広がるのに対し、平滑化では同クラスが密に固まり、クラス間が等間隔に整うことを実験的に示しました。

なぜ等距離クラスタが望ましいのか

クラスタが等距離で固いと、未知入力に対しても「どのクラスにも均等に遠い」状態を保ちやすく、確信度が暴走しにくくなります。これが較正改善の幾何的な裏付けです。一方で、後述の通りクラス間の細かな相対距離が潰されるため、その情報を使いたい用途（蒸留）では裏目に出ます。

知識蒸留との関係

ラベル平滑化は、目標分布をハードラベルから動かすという一点で知識蒸留（distillation）と同じ枠組みに属します。蒸留は教師モデルが出す確率分布 p_teacher を目標に使い、生徒に −Σ_k p_teacher,k · log q_k を最小化させます。両者を並べると違いは目標の作り方だけです。

ラベル平滑化:  t_k = ε/(K−1)        （正解以外は一様）
知識蒸留:      t_k = p_teacher,k     （正解以外はクラス類似度を反映）

決定的な差は、誤りクラス間の相対構造を残すか消すかです。教師の出力では「犬」を「猫」と「車」に等確率で間違えたりせず、視覚的に近い「猫」へ高い確率を割り当てます。この非一様な分布（ダークナレッジ）が、クラス間の類似構造を生徒へ伝えます。ラベル平滑化は誤りクラスを一律 ε/(K−1) で潰すため、この構造を意図的に捨てているとも言えます。

平滑化した教師は蒸留に弱い

Müllerらの重要な指摘として、ラベル平滑化で訓練した教師は精度こそ高くても、蒸留の教師としては平滑化なしの教師に劣ることがあります。平滑化が誤りクラス間の距離情報を圧縮し、表現を等距離クラスタへ畳み込んでしまうため、生徒へ渡せるダークナレッジが減るのです。較正・精度に良いものが転移学習に良いとは限らない、という非自明な帰結です。

蒸留温度 T で教師ロジットを softmax(z/T) と緩めると、誤りクラスの相対確率が拡大して構造がより伝わります。温度 T を上げて分布をなだらかにする操作は、ラベル平滑化が確率を一様側へ寄せる操作と方向は似ますが、一様化（情報を捨てる）か教師分布への接近（構造を伝える）かで意味が正反対です。確率分布の鋭さと情報量の関係は情報理論とエントロピーの視点で整理できます。

損失関数としての分解

ラベル平滑化損失は、二つの項に分解すると効果が読み解けます。目標 t に対する交差エントロピーは次のように書けます。

L_LS = (1−ε) · ( −log q_y )                       … 通常のCE項
     + ε      · ( −(1/(K−1)) Σ_{k≠y} log q_k )    … 一様分布への引き寄せ項

第1項は通常の正解項を 1−ε で弱めたもの、第2項は出力を一様分布へ近づける正則化項です。等価な見方として、L_LS は「ハードラベルのCE」＋「出力 q と一様分布 u のKLダイバージェンスに比例する罰則」に分解できます。後者が出力を一様分布へ引く力として働き、最大確率の暴走を抑えます。ε はこの罰則の強さを決めるつまみで、L2正則化の λ と同じ役割を担います。ε が大きすぎると正解と誤りの差すら潰れて精度が落ちるため、0.05〜0.1程度が実務の定番です。

まとめ

ハードラベルは正解確率1という到達不能な目標ゆえに、正解ロジットを無限に押し上げ過信を招きます。
ラベル平滑化は目標を 1−ε／ε/(K−1) に変え、勾配の停止点を有限化して過信を抑え、較正を改善します。
最適点では正解と他のロジット差が log((1−ε)(K−1)/ε) の定数マージンに収束し、表現空間ではクラスが等距離の固いクラスタへ整います。
蒸留は目標を教師確率にした同型の手法ですが、誤りクラス間の**類似構造（ダークナレッジ）**を残す点が決定的に異なります。
平滑化はその構造を一様化で捨てるため、較正には効く一方で蒸留の教師には不向きになりうる、というトレードオフがあります。

ラベル平滑化と正則化テクニックの数理

ハードラベルが過信を生む仕組み

ラベル平滑化の定義と効果

ロジット間マージンとクラス表現の幾何

知識蒸留との関係

損失関数としての分解

まとめ

ラベル平滑化と正則化テクニックの数理を実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点