敵対的サンプルとロバスト性の数理

微小摂動が分類を壊す

学習済みの画像分類器に、人間の目には全く区別できないノイズを足すだけで、パンダを「テナガザル」と高い確信度で誤分類させられる——これが**敵対的サンプル（adversarial example）**です。ランダムノイズではこうはなりません。摂動は「モデルが最も間違えやすい方向」へ精密に設計されています。本記事では、その方向をどう求めるか（攻撃）、なぜ高次元で成立するか（線形性仮説）、どう守るか（敵対的訓練・認証）を原理から順に解きます。

形式的には、入力 x、正解ラベル y、損失 L(θ,x,y) に対し、摂動 δ を許容範囲 S 内で動かして損失を最大化する問題です。

maximize  L(θ, x+δ, y)
subject to  δ ∈ S

許容範囲 S には通常、各画素の変化量を上限 ε で抑える L∞ ノルム球 {δ : ‖δ‖∞ ≤ ε} を使います。L∞ は「どの画素も ε を超えて変えない」という制約で、人間の知覚的な「見た目を変えない」に近い代理になります。

FGSM：勾配1回で攻撃する

最も基本的な攻撃が **FGSM（Fast Gradient Sign Method）**です。損失を最も速く増やす方向は勾配 ∇x L ですが、L∞ 制約のもとで使える「予算」は各次元 ±ε までです。L∞ 球内で内積 ∇x L · δ を最大化する δ は、各成分を勾配の符号方向へ ε いっぱい振った点になります。

δ = ε · sign(∇x L(θ, x, y))
x_adv = x + δ

ポイントは勾配の大きさではなく符号だけを使うことです。L∞ 制約では各次元を独立に ±ε まで動かせるので、向き（符号）が分かれば各次元で予算を使い切るのが最適だからです。勾配1回で済むため高速ですが、損失曲面を線形近似した1ステップ解にすぎず、強い攻撃ではありません。

ノルムごとに最適な摂動形が変わる

許容範囲を L∞ にすると「全次元を一様に ±ε」、L2 にすると「勾配方向に長さ ε のベクトル（ε·∇x L/‖∇x L‖）」、L1 にすると「勾配の絶対値が最大の1次元だけを動かす」のが最適です。同じ「微小摂動」でも、距離の測り方が摂動の形を決めます。攻撃・防御を語るときは必ずノルムと ε をセットで指定します。

PGD：制約付き最大化の反復解法

FGSM の1ステップを多ステップに拡張し、毎回 L∞ 球へ射影しながら勾配上昇を繰り返すのが **PGD（Projected Gradient Descent）**です。内側最大化問題を反復で解く、射影勾配法そのものです。

x_0 = x + （ε球内のランダム初期化）
繰り返し t = 0,1,...,T-1:
    g = sign(∇x L(θ, x_t, y))
    x_{t+1} = Proj_{S}( x_t + α · g )   # α はステップ幅

Proj_S は更新後の点を許容範囲 S（x 中心・半径 ε の L∞ 球）へ引き戻す操作で、L∞ では各画素を [x-ε, x+ε] にクリップし、さらに有効画素値域 [0,1] にもクリップします。ランダム初期化は、損失曲面の異なる局所最大へ到達して攻撃の取りこぼしを減らす役割を持ちます。PGD は経験的に最強の一次（勾配ベース）攻撃とされ、防御の評価基準（ベンチマーク）として広く使われます。

攻撃	勾配計算	強さ	主な用途
FGSM	1回	弱い（線形近似）	高速な敵対的訓練・素早い脆弱性チェック
PGD	T回（反復＋射影）	強い（一次攻撃の代表）	防御のロバスト性評価の基準
C&W	最適化ベース	非常に強い	最小摂動の精密探索

なぜ効くのか：決定境界の線形性仮説

直感に反するのは「なぜこれほど小さな ε で出力が大きく変わるのか」です。Goodfellow らの線形性仮説はこう説明します。多くのモデルは効率的な学習のため、局所的にはほぼ線形に振る舞います。線形な出力 wᵀx に摂動 δ を加えると、出力の変化は wᵀδ です。L∞ 制約 ‖δ‖∞ ≤ ε のもとで wᵀδ を最大化すると δ = ε·sign(w) となり、変化量は次のようになります。

wᵀδ = ε · Σ |w_i|   （i = 1 .. d）

重要なのは、これが入力次元 d に比例して積み上がる点です。1次元あたりの変化は ε とごく小さくても、d が数千〜数万あれば総和は巨大になります。つまり「各画素はほとんど変えていない」のに「内積（出力）は大きく動く」という、次元の呪いの裏返しが起きています。これが、小さな ε で誤分類を誘発できる理由の核です。線形モデルの脆弱性が、局所線形な深層ネットにもそのまま遺伝していると解釈できます。

勾配マスキングという落とし穴

防御がモデルの勾配をわざと使いにくくする（勾配を消す・砕く）と、勾配ベースの攻撃が「効かないように見える」ことがあります。これは勾配マスキングと呼ばれる見かけ倒しで、真のロバスト性ではありません。勾配を使わない攻撃や転移攻撃には簡単に破られます。ロバスト性を主張するときは PGD だけでなく、適応的攻撃（防御の中身を知った上で設計した攻撃）で評価する必要があります。

敵対的訓練：min-max ロバスト最適化

守る側の王道が**敵対的訓練（adversarial training）**です。普通の学習は損失の期待値を最小化しますが、敵対的訓練は「各サンプルで最悪の摂動を受けたときの損失」を最小化します。内側に最大化、外側に最小化を入れ子にした min-max 問題として定式化されます（Madry らの定式化）。

min_θ  E[ max_{δ∈S}  L(θ, x+δ, y) ]
       └外側最小化┘ └─内側最大化─┘

内側の max は「与えられたモデルに対する最強の攻撃を見つける」サブ問題で、実際にはPGD で近似的に解きます。外側の min は、その最悪ケース損失を勾配降下法で下げる通常の学習です。学習ループは「各ミニバッチで PGD 攻撃サンプルを生成 → それを使ってパラメータ更新」を繰り返します。

ここで効くのがダンスキンの定理です。内側 max の最大点 δ* が求まっていれば、外側の勾配は「δ* を固定したときの ∇θ L(θ, x+δ*, y)」で与えられる、という結果で、これが「攻撃サンプルで普通に逆伝播してよい」根拠になります。ただし内側を厳密に解けない（PGD は近似）ため保証は完全ではなく、コストも通常学習の数倍（PGD ステップ数倍の勾配計算）になります。生成器と識別器を競わせる GAN と同じく、攻撃と防御を交互に最適化する点で「敵対的」という名を共有しますが、目的構造は別物です。

ロバスト性と精度のトレードオフ

敵対的訓練は、摂動下の精度（ロバスト精度）を上げる代わりに、摂動なしの精度（クリーン精度）をしばしば下げます。最悪ケースに備える分、決定境界が滑らかで保守的になるためです。さらに、ある ε・あるノルムで訓練したロバスト性は、別のノルム（例：L∞ で訓練して L2 で攻撃）には移りにくい。「どの脅威モデルに対するロバスト性か」を常に明示するのが実務の鉄則です。

転移性：攻撃はモデルをまたぐ

敵対的サンプルの厄介な性質が転移性（transferability）です。あるモデルAで作った攻撃サンプルが、構造も学習データも異なる別モデルBにもしばしば効きます。これが成り立つのは、異なるモデルでも似たデータで訓練すれば似た決定境界・似た勾配方向を学ぶためで、線形性仮説とも整合します。

転移性の帰結がブラックボックス攻撃です。攻撃者は標的モデルの内部（勾配）を知らなくても、手元の代理モデル（サロゲート）で攻撃を作り、それを標的へ転移させられます。API 越しにしか触れないモデルでも、入出力の観測から代理を訓練すれば攻撃可能になる——これが敵対的サンプルを実運用上の脅威にしています。

認証付きロバスト性：保証のある防御

敵対的訓練が与えるのは「試した攻撃には耐えた」という経験的ロバスト性で、未知の強い攻撃に破られる可能性が残ります。これに対し認証付き（certified）ロバスト性は、「x を中心とする半径 ε の球内のどんな入力に対しても予測が変わらない」ことを数学的に証明します。証明できた半径を認証半径と呼びます。代表的なアプローチは2系統です。

手法	保証の出し方	特徴
区間境界伝播（IBP）等	各層の出力範囲を区間/凸緩和で上下から囲い、出力ロジット差の符号が反転しないことを示す	決定的な保証。緩和が粗いと半径が小さく保守的
ランダム化平滑化	入力にガウスノイズを加えた多数決を分類器とし、確率的に認証半径を導く（Neyman-Pearson）	大規模モデルでも適用可。L2 で強く、保証は高確率

ランダム化平滑化は、ノイズを足した入力での多数決クラスを出力とする「平滑化分類器」を作り、その最頻クラスの確率と次点の確率の差から、予測が不変でいられる L2 半径を解析的に導きます。証明可能ですが、認証半径は経験的ロバスト性が実際に耐える範囲より小さくなりがちで、保証と実用性のギャップが残ります。防御の強さを比較するときは、経験的（PGD 精度）と認証（証明された半径）のどちらを語っているかを区別することが、モデル評価の正確さに直結します。

試験・面接での頻出ポイント

FGSM の式：δ = ε·sign(∇x L)。なぜ勾配の符号だけかを L∞ 制約から説明できること。
PGD = 射影勾配法：内側最大化を反復で解き、毎回 ε球＋画素域へ射影する。一次攻撃の代表で評価基準。
線形性仮説：摂動の影響 ε·Σ|w_i| が次元 d に比例して積み上がるため、小さい ε でも効く。
min-max：min_θ E[max_δ L]。内側 max を PGD で近似、ダンスキンの定理で外側勾配を正当化。
経験的 vs 認証：前者は「試した攻撃に耐えた」、後者は「ε球内で予測不変を証明」。区別必須。

まとめ

敵対的サンプルは、モデルの「バグ」というより高次元・局所線形なモデルの構造的帰結です。攻撃は損失を L∞ 球内で最大化する問題で、1ステップが FGSM、反復＋射影が PGD。なぜ効くかは線形性仮説——摂動の効果が次元に比例して積み上がる——で説明できます。守る側は内側最大化（PGD）と外側最小化（学習）の min-max を解く敵対的訓練が王道ですが、それは経験的保証にとどまり、転移性によってブラックボックスでも脅威が成立します。真に「証明された安全」を求めるなら、認証半径を導くランダム化平滑化や凸緩和へ進みます。ロバスト性を語るときは、ノルム・ε・脅威モデル・保証の種類を常にセットで明示する——これが原理を踏まえた実務の出発点です。

敵対的サンプルとロバスト性の数理

微小摂動が分類を壊す

FGSM：勾配1回で攻撃する

PGD：制約付き最大化の反復解法

なぜ効くのか：決定境界の線形性仮説

敵対的訓練：min-max ロバスト最適化

転移性：攻撃はモデルをまたぐ

認証付きロバスト性：保証のある防御

まとめ

敵対的サンプルとロバスト性の数理を実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点