ラベル平滑化と正則化テクニックの数理
正解確率を1から少し引くだけで過信が和らぎ較正が改善します。なぜ効くのかをロジット間マージン・クラス表現の幾何・蒸留との関係から数式で解き明かします。
- 1.ハードラベルを正解 1−ε、他クラス ε/(K−1) に平滑化すると、交差エントロピーが正解ロジットを際限なく押し上げる力が止まり、過信が抑えられ較正が改善する。
- 2.平滑化は正解ロジットと他ロジットの差を有限の目標値に固定する。最適ロジットは log((1−ε)(K−1)/ε) 程度の一定マージンへ収束し、表現空間ではクラスが等距離の固いクラスタに整う。
- 3.教師の確率を ε に使えば知識蒸留になる。違いは ε が一様か(平滑化)クラス間の類似度を含むか(蒸留)で、後者は誤りクラス間の相対構造まで消さずに伝える。
ハードラベルが過信を生む仕組み
分類の標準的な学習は、正解クラスだけ確率1・他は0という**ハードラベル(one-hot)**に対して交差エントロピーを最小化します。出力 q = softmax(z)、正解クラスを y とすると、損失は L = −log q_y です。ここで本質的な問題が起きます。q_y は厳密には1に到達できません。q_y → 1 には正解ロジット z_y と他ロジット z_k の差を無限大に飛ばす必要があるからです。
q_y = exp(z_y) / Σ_k exp(z_k)
q_y → 1 になるのは z_y − max_{k≠y} z_k → +∞ のときだけ。
つまりハードラベルの目標は達成不能な無限点です。分類はとっくに正しくなっているのに、損失はまだ下がる余地を残すため、勾配は正解ロジットを際限なく引き上げ続けます。結果として最大確率が1へ張り付き、出力が過信気味になります。これは現代の深層ネットで較正が悪化する主因の一つで、詳しくは モデルキャリブレーションと不確実性推定 を参照してください。
交差エントロピー+ソフトマックスのロジットに対する勾配は ∂L/∂z_k = q_k − t_k(t は目標分布)です。ハードラベルでは t_y = 1 なので ∂L/∂z_y = q_y − 1 となり、q_y が1に近づくまで勾配はゼロになりません。正解ロジットを上げ続ける駆動力が、学習の最後まで消えないわけです。
ラベル平滑化の定義と効果
**ラベル平滑化(label smoothing)**は、ハードラベルを少しだけ崩します。クラス数を K、平滑化係数を ε(典型は0.1)として、目標分布を次のように作ります。
t_y = 1 − ε (正解クラス)
t_k = ε / (K − 1) (正解以外の各クラス)
正解の確率を 1−ε まで下げ、残りを他クラスへ均等に配ります。この一手で先ほどの勾配 ∂L/∂z_y = q_y − t_y の停止点が q_y = 1−ε へ移ります。目標が有限の確率になったため、正解ロジットを無限に押し上げる力が止まり、過信が原理的に抑えられます。
実装は損失の差し替えだけで、推論時の構造は変わりません。一般的な正則化との位置づけは 正則化(過学習対策) で整理した通りで、ラベル平滑化は重みではなく目標分布側に罰則をかける変種だと捉えると見通しが良くなります。
| 観点 | ハードラベル | ラベル平滑化 |
|---|---|---|
| 正解の目標確率 | 1(到達不能) | 1−ε(有限・到達可能) |
| ロジットの挙動 | 差が無限に発散 | 差が一定マージンへ収束 |
| 較正 | 過信になりやすい | ECEが下がりやすい |
| 表現の幾何 | クラスタが広がる | 等距離の固いクラスタ |
| 副作用 | なし | 蒸留の教師には不向きな場合あり |
ロジット間マージンとクラス表現の幾何
平滑化が「過信を抑える」だけでなく、最適ロジットの形そのものを定める点が数理の核心です。平滑化された目標に対する交差エントロピーは、出力 q を目標 t に一致させたときに最小化されます。q = t を満たすロジットを逆算すると、正解ロジットと他ロジットの差が一定値に固定されます。
最適点では q_y = 1−ε, q_k = ε/(K−1)
ソフトマックスを逆に解くと、正解と他クラスのロジット差は
z_y − z_k = log( (1−ε)(K−1) / ε ) (定数マージン)
正解ロジットは無限大ではなく、この有限のマージンだけ他より高い位置で釣り合います。さらに誤りクラス同士は目標が全部 ε/(K−1) で等しいため、それらのロジットを互いに引き離す力が消え、正解以外は同じ高さへ揃えられます。
この力は表現空間の幾何に直接効きます。最終層の重みベクトルを各クラスのテンプレートとみなすと、ロジットは特徴とテンプレートの内積です。平滑化は「正解テンプレートとは一定マージンで近く、それ以外の全テンプレートとは等しく遠い」配置を要求します。結果として、各クラスの特徴は正則三角形(シンプレックス)状に等距離で並んだ、タイトなクラスタへ収束します。Müllerらは、ハードラベルだと同クラス内でも特徴が広がるのに対し、平滑化では同クラスが密に固まり、クラス間が等間隔に整うことを実験的に示しました。
クラスタが等距離で固いと、未知入力に対しても「どのクラスにも均等に遠い」状態を保ちやすく、確信度が暴走しにくくなります。これが較正改善の幾何的な裏付けです。一方で、後述の通りクラス間の細かな相対距離が潰されるため、その情報を使いたい用途(蒸留)では裏目に出ます。
知識蒸留との関係
ラベル平滑化は、目標分布をハードラベルから動かすという一点で知識蒸留(distillation)と同じ枠組みに属します。蒸留は教師モデルが出す確率分布 p_teacher を目標に使い、生徒に −Σ_k p_teacher,k · log q_k を最小化させます。両者を並べると違いは目標の作り方だけです。
ラベル平滑化: t_k = ε/(K−1) (正解以外は一様)
知識蒸留: t_k = p_teacher,k (正解以外はクラス類似度を反映)
決定的な差は、誤りクラス間の相対構造を残すか消すかです。教師の出力では「犬」を「猫」と「車」に等確率で間違えたりせず、視覚的に近い「猫」へ高い確率を割り当てます。この非一様な分布(ダークナレッジ)が、クラス間の類似構造を生徒へ伝えます。ラベル平滑化は誤りクラスを一律 ε/(K−1) で潰すため、この構造を意図的に捨てているとも言えます。
Müllerらの重要な指摘として、ラベル平滑化で訓練した教師は精度こそ高くても、蒸留の教師としては平滑化なしの教師に劣ることがあります。平滑化が誤りクラス間の距離情報を圧縮し、表現を等距離クラスタへ畳み込んでしまうため、生徒へ渡せるダークナレッジが減るのです。較正・精度に良いものが転移学習に良いとは限らない、という非自明な帰結です。
蒸留温度 T で教師ロジットを softmax(z/T) と緩めると、誤りクラスの相対確率が拡大して構造がより伝わります。温度 T を上げて分布をなだらかにする操作は、ラベル平滑化が確率を一様側へ寄せる操作と方向は似ますが、一様化(情報を捨てる)か教師分布への接近(構造を伝える)かで意味が正反対です。確率分布の鋭さと情報量の関係は 情報理論とエントロピー の視点で整理できます。
損失関数としての分解
ラベル平滑化損失は、二つの項に分解すると効果が読み解けます。目標 t に対する交差エントロピーは次のように書けます。
L_LS = (1−ε) · ( −log q_y ) … 通常のCE項
+ ε · ( −(1/(K−1)) Σ_{k≠y} log q_k ) … 一様分布への引き寄せ項
第1項は通常の正解項を 1−ε で弱めたもの、第2項は出力を一様分布へ近づける正則化項です。等価な見方として、L_LS は「ハードラベルのCE」+「出力 q と一様分布 u のKLダイバージェンスに比例する罰則」に分解できます。後者が出力を一様分布へ引く力として働き、最大確率の暴走を抑えます。ε はこの罰則の強さを決めるつまみで、L2正則化の λ と同じ役割を担います。ε が大きすぎると正解と誤りの差すら潰れて精度が落ちるため、0.05〜0.1程度が実務の定番です。
まとめ
- ハードラベルは正解確率1という到達不能な目標ゆえに、正解ロジットを無限に押し上げ過信を招きます。
- ラベル平滑化は目標を
1−ε/ε/(K−1)に変え、勾配の停止点を有限化して過信を抑え、較正を改善します。 - 最適点では正解と他のロジット差が
log((1−ε)(K−1)/ε)の定数マージンに収束し、表現空間ではクラスが等距離の固いクラスタへ整います。 - 蒸留は目標を教師確率にした同型の手法ですが、誤りクラス間の**類似構造(ダークナレッジ)**を残す点が決定的に異なります。
- 平滑化はその構造を一様化で捨てるため、較正には効く一方で蒸留の教師には不向きになりうる、というトレードオフがあります。
AI/機械学習 Article
ラベル平滑化と正則化テクニックの数理を実務で読む
TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。
解決すること
ラベル平滑化
比較で見る軸
難易度: advanced / カテゴリ: AI/機械学習 / タグ数: 5
導入後に効く点
平滑化は正解ロジットと他ロジットの差を有限の目標値に固定する。最適ロジットは log((1−ε)(K−1)/ε) 程度の一定マージンへ収束し、表現空間ではクラスが等距離の固いクラスタに整う。
先に潰すリスク
用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。
- 難易度
- advanced
- カテゴリ
- AI/機械学習
- タグ数
- 5
判断チェックリスト
- 自社の用途が「ラベル平滑化 / 正則化」に近いか確認する。
- 強みである「ハードラベルを正解 1−ε、他クラス ε/(K−1) に平滑化すると、交差エントロピーが正解ロジットを際限なく押し上げる力が止まり、過信が抑えられ較正が改善する。」が本当に評価軸になるか確認する。
- 注意点の「用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。」を運用で吸収できるか確認する。
- 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
- 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
- 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。