テスト時適応とドメインシフトへの対処

なぜテスト時に精度が崩れるのか：分布シフトの正体

機械学習の汎化保証は、暗黙に 「学習データとテストデータが同じ分布から独立同分布（i.i.d.）で得られる」 という前提に立っています。現実の運用ではこの前提が破れます。カメラが変わる、季節が変わる、ユーザー層が変わる——こうした 分布シフト（distribution shift） が起きると、検証データで高精度だったモデルが本番で静かに劣化します。重要なのは、シフトの種類によって正しい対処が変わることです。

入力 x とラベル y の同時分布 p(x,y)=p(x)p(y|x) をどう分解するかで、主要なシフトは次に整理できます。

共変量シフト (covariate shift):  p_train(x) ≠ p_test(x),  かつ p(y|x) は不変
ラベルシフト (label shift):       p_train(y) ≠ p_test(y),  かつ p(x|y) は不変
概念シフト (concept drift):       p(y|x) 自体が変化（最も厄介・補正困難）

どのシフトかを取り違えると補正は逆効果

共変量シフトは「入力の出方は変わるが、入力から答えへの写像 p(y|x) は変わらない」状況です。例えば撮影機材が変わって画像の色味が偏っても「猫は猫」という対応関係は不変、というモデル化です。逆にラベルシフトは「クラスの出現比だけ変わる」状況（流行で特定クラスが急増など）。p(y|x) が変わる概念シフトはラベルなしでは原理的に補正できず、新しいラベル付きデータが要ります。前提の取り違えは静かに精度を下げるため、まず「何が不変か」を見極めるのが出発点です。

共変量シフト補正：重要度重み付けの原理

共変量シフトでは p(y|x) が不変なので、学習データに正しい重みを掛ければテスト分布上の期待損失を不偏推定できます。テスト分布上で最小化したい期待損失は、学習サンプルだけを使って次のように書き換えられます。

E_{x~p_test}[ loss(x) ]
  = ∫ p_test(x) loss(x) dx
  = ∫ p_train(x) · [p_test(x)/p_train(x)] · loss(x) dx
  = E_{x~p_train}[ w(x) · loss(x) ]

  重要度重み  w(x) = p_test(x) / p_train(x)

つまり 各学習サンプルの損失を w(x) で再重み付け すれば、テスト分布上の損失を最小化したのと同じ効果が得られます。これが 重要度重み付け（importance weighting） です。実務では密度 p_test・p_train を直接推定せず、両者を判別する分類器を学習して比を求める手法（学習サンプルを 0、テストサンプルを 1 とする二値分類器の出力から w を構成）がよく使われます。

重要度重みは『重なり』がないと崩壊する

w(x)=p_test/p_train は、学習分布のサポートがテスト分布を覆っている（重なりがある）ことが大前提です。学習データにほとんど現れない領域では p_train(x)≈0 となり重みが発散、少数サンプルに巨大な重みが集中して 実効サンプルサイズが激減し、推定の分散が爆発します。実務では重みのクリッピングや自己正規化で安定化しますが、根本的にサポートが外れた領域（外挿）は補正不能です。

ラベルシフトの場合は重みの掛け先がラベル比になります。p_test(y)/p_train(y) を未知の p_test(y) から推定する必要があり、混同行列を使って観測予測分布から真のラベル比を解く BBSE（Black Box Shift Estimation） などが用いられます。いずれも「何が不変か」を仮定に落とし込み、その不変性を使って比を一点だけ補正するのが共通構造です。

テスト時適応（TTA）：ラベルなしで推論時にモデルを直す

重要度重み付けは学習分布へのアクセスを要しますが、本番では ラベルなしのテストデータしか手に入らないことが多い。そこで注目されるのが テスト時適応（Test-Time Adaptation, TTA） ——推論時に、ラベルなしのテスト入力だけを使ってモデルを少しだけ調整する枠組みです。再学習用のラベルも元学習データも要らないのが利点です。

最も軽量な手法が バッチ正規化（BN）統計の再推定 です。BN は学習中に蓄えた移動平均の平均・分散で入力を正規化しますが、これは 学習分布の統計 です。テスト分布がずれていると、この固定統計が不適切になります。対策は単純で、テストバッチ自身の平均・分散で正規化し直す こと。

通常の推論:  ŷ = f(x; 学習時に蓄積した μ_train, σ²_train)
BN適応:      テストバッチ B の μ_B, σ²_B を計算して正規化に使用
             → 重み更新ゼロ、統計の差し替えだけでシフトに追従

学習済みの重みは一切変えず統計だけ差し替えるため、ほぼコストゼロでシフトの一部を吸収できます。BN の役割と統計の意味はバッチ正規化の理論や正規化層を併せて読むと理解が深まります。

TENT：予測エントロピー最小化による適応

BN 統計の差し替えより一歩進めたのが TENT（Test-time Entropy Minimization） です。発想は、「確信のある予測ほど、分布がモデルに馴染んでいる」 という仮定を最適化に変えること。具体的には、テスト入力に対する予測のエントロピーを下げる方向に、ごく一部のパラメータだけを更新します。

各テストバッチで:
  1. 予測確率 p = softmax(f(x))
  2. エントロピー H(p) = - Σ_c p_c log p_c   を計算
  3. H(p) を最小化する向きに勾配を1ステップ
     更新対象は BN のスケール γ・シフト β のみ（他は凍結）

エントロピー最小化は、決定境界を データ密度の低い領域へ押しやる（確信を高める）効果があり、ラベルなしでも分類の鋭さを回復させます。更新を BN のアフィン変換パラメータ γ, β に限定するのが要点で、全パラメータを動かすより安定し、計算も軽い。なお「予測の鋭さ＝エントロピーの低さ」という指標の意味は情報理論とエントロピーを参照すると腑に落ちます。

エントロピー最小化は『崩壊』しうる

エントロピーだけを最小化すると、モデルが 全入力を1クラスに潰す自明解（どの入力にも自信満々で同じ答え）でも目的関数は最小化されてしまいます。これを 崩壊（collapse） と呼びます。対策として、バッチ全体の予測クラス分布を一様に近づける正則化項（多様性の確保）を足す、学習率を小さく保つ、確信度の低いサンプルを更新から除外する、などが併用されます。TTA は便利な反面、監督なし最適化ゆえの暴走に常に注意が必要です。

自己訓練（擬似ラベル）：諸刃の剣

ラベルなし適応のもう一つの王道が 自己訓練（self-training） です。モデル自身の高確信な予測を 擬似ラベル（pseudo-label） とみなし、それを正解として再学習します。エントロピー最小化と思想は近く、「確信の高い予測は概ね正しい」という仮定を使います。

反復:
  1. テスト（または未ラベル）データに予測
  2. 確信度がしきい値以上のサンプルだけ採用し、その予測をラベルとする
  3. 擬似ラベルでモデルを更新
  4. 1へ戻る（しきい値は徐々に緩めることが多い）

問題は 確証バイアス（confirmation bias） です。初期の誤った予測を教師にすると、その誤りが次の学習で強化され、間違いが自己増幅していきます。さらに擬似ラベルが多数クラスへ偏ると、少数クラスが消える崩壊も起きます。

自己訓練を安定させる実務テク

(1) 確信度しきい値 を高めに置き、序盤は少数の「確実な」サンプルだけ採用する。(2) 強い拡張に一貫性を課す——弱拡張した入力の予測を擬似ラベルにし、強拡張した入力でそれに一致させる（一貫性正則化）。(3) クラスごとにしきい値を調整し、少数クラスの擬似ラベルが消えないようにする。これらは半教師あり学習の知見と地続きで、過適応を抑える発想は過学習（オーバーフィッティング）の対策と共通します。

手法の使い分け：何が要るか・何を仮定するか

ここまでの手法は「利用できる情報」と「置く仮定」で整理すると選びやすくなります。

手法	必要な情報	主な仮定	主なリスク
重要度重み付け	学習データ＋テスト入力（ラベル不要）	共変量シフト・サポートの重なり	重みの発散・分散爆発
ラベルシフト補正(BBSE)	学習統計＋テスト予測分布	p(x\|y) が不変	推定誤差・分類器依存
BN統計の再推定	テストバッチのみ	シフトは統計のずれが主因	小バッチで統計が不安定
TENT(エントロピー最小化)	テストバッチのみ	確信＝適合の代理	崩壊・自明解への退行
自己訓練(擬似ラベル)	未ラベルデータ	高確信予測は概ね正しい	確証バイアスの自己強化

実務の指針はおおむね次の通りです。まず最も軽く副作用の小さい BN 統計の再推定を試す。効果が足りなければ、γ, β だけ動かす TENT で確信を底上げする。学習データにアクセスでき、シフトが入力分布側だと分かっているなら重要度重み付けで原理的に補正する。未ラベルデータが大量にあり腰を据えて適応するなら、一貫性正則化を併用した自己訓練に進む——という順序です。

試験・面接で問われる勘所

「共変量シフトとラベルシフトの違いと対処は？」——共変量シフトは p(x) だけ変わり p(y|x) 不変、対処は重要度重み w(x)=p_test(x)/p_train(x)。ラベルシフトは p(y) だけ変わり p(x|y) 不変、対処はラベル比の補正、と答えます。「TENT は何を最小化し、何を更新するか？」——予測エントロピーを最小化し、更新は BN のアフィンパラメータ γ, β のみ、リスクは全入力を1クラスに潰す崩壊。キーワードは「補正の前提＝何が不変か」「ラベルなしで推論時に直すのが TTA」です。

まとめ：補正の前に『何が不変か』を決める

分布シフトへの対処は、魔法ではなく 不変性の仮定を一つ選び、その不変性を使って分布の差を一点だけ補正する 営みです。仮定を取り違えれば補正は逆効果になります。

論点	実態	実務への示唆
シフトの種類	共変量／ラベル／概念で対処が異なる	まず『何が不変か』を見極める
ラベルの有無	本番はラベルなしが普通	TTA で推論時に調整する発想を持つ
軽さと安全	BN統計再推定は最も安全・低コスト	段階的に重い手法へ進める
監督なしの暴走	TENT/自己訓練は崩壊・確証バイアス	多様性正則化・しきい値で抑える

結論として、テスト時適応は 「再学習せずに本番分布へ静かに追従する」 強力な道具ですが、その効力はすべて 置いた仮定の正しさ に依存します。p(y|x) 不変を前提に重みで補正するのか、確信を代理指標にエントロピーで適応するのか——前提を言語化したうえで、最も安全な手から段階的に踏み込むのが堅実です。シフト下での性能評価そのものをどう測るかはモデル評価を、汎化と過適応の基礎は過学習を合わせて押さえると、点が線でつながります。

テスト時適応とドメインシフトへの対処

なぜテスト時に精度が崩れるのか：分布シフトの正体

共変量シフト補正：重要度重み付けの原理

テスト時適応（TTA）：ラベルなしで推論時にモデルを直す

TENT：予測エントロピー最小化による適応

自己訓練（擬似ラベル）：諸刃の剣

手法の使い分け：何が要るか・何を仮定するか

まとめ：補正の前に『何が不変か』を決める

テスト時適応とドメインシフトへの対処を実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点