TL

敵対的サンプルとロバスト性の数理

人間に見えない微小なノイズでモデルが誤分類する理由を、FGSM/PGD攻撃と敵対的訓練のmin-max最適化から原理で理解し、認証付きロバスト性まで掴めます。

応用敵対的サンプルロバスト性PGD敵対的訓練セキュリティ最終更新: 2026-06-21
TL;DR要点だけ先に
  • 1.敵対的サンプルは、損失を増やす方向へ入力をL∞球内で微小に動かす最大化問題の解。1ステップ近似がFGSM、多ステップ反復がPGDで、PGDは経験的に最強の一次攻撃。
  • 2.高次元では決定境界がほぼ線形に振る舞うため、各次元のわずかな摂動が内積で積み上がり、合計εが小さくても出力を大きく動かせる(線形性仮説)。
  • 3.敵対的訓練は内側最大化(攻撃)と外側最小化(学習)を入れ子にしたmin-max最適化。経験的ロバスト性は与えるが保証はなく、認証付き手法はε球内の不変性を証明する。

微小摂動が分類を壊す

学習済みの画像分類器に、人間の目には全く区別できないノイズを足すだけで、パンダを「テナガザル」と高い確信度で誤分類させられる——これが**敵対的サンプル(adversarial example)**です。ランダムノイズではこうはなりません。摂動は「モデルが最も間違えやすい方向」へ精密に設計されています。本記事では、その方向をどう求めるか(攻撃)、なぜ高次元で成立するか(線形性仮説)、どう守るか(敵対的訓練・認証)を原理から順に解きます。

形式的には、入力 x、正解ラベル y、損失 L(θ,x,y) に対し、摂動 δ を許容範囲 S 内で動かして損失を最大化する問題です。

maximize  L(θ, x+δ, y)
subject to  δ ∈ S

許容範囲 S には通常、各画素の変化量を上限 ε で抑える L∞ ノルム球 {δ : ‖δ‖∞ ≤ ε} を使います。L∞ は「どの画素も ε を超えて変えない」という制約で、人間の知覚的な「見た目を変えない」に近い代理になります。

FGSM:勾配1回で攻撃する

最も基本的な攻撃が **FGSM(Fast Gradient Sign Method)**です。損失を最も速く増やす方向は勾配 ∇x L ですが、L∞ 制約のもとで使える「予算」は各次元 ±ε までです。L∞ 球内で内積 ∇x L · δ を最大化する δ は、各成分を勾配の符号方向へ ε いっぱい振った点になります。

δ = ε · sign(∇x L(θ, x, y))
x_adv = x + δ

ポイントは勾配の大きさではなく符号だけを使うことです。L∞ 制約では各次元を独立に ±ε まで動かせるので、向き(符号)が分かれば各次元で予算を使い切るのが最適だからです。勾配1回で済むため高速ですが、損失曲面を線形近似した1ステップ解にすぎず、強い攻撃ではありません。

ノルムごとに最適な摂動形が変わる

許容範囲を L∞ にすると「全次元を一様に ±ε」、L2 にすると「勾配方向に長さ ε のベクトル(ε·∇x L/‖∇x L‖)」、L1 にすると「勾配の絶対値が最大の1次元だけを動かす」のが最適です。同じ「微小摂動」でも、距離の測り方が摂動の形を決めます。攻撃・防御を語るときは必ずノルムと ε をセットで指定します。

PGD:制約付き最大化の反復解法

FGSM の1ステップを多ステップに拡張し、毎回 L∞ 球へ射影しながら勾配上昇を繰り返すのが **PGD(Projected Gradient Descent)**です。内側最大化問題を反復で解く、射影勾配法そのものです。

x_0 = x + (ε球内のランダム初期化)
繰り返し t = 0,1,...,T-1:
    g = sign(∇x L(θ, x_t, y))
    x_{t+1} = Proj_{S}( x_t + α · g )   # α はステップ幅

Proj_S は更新後の点を許容範囲 Sx 中心・半径 ε の L∞ 球)へ引き戻す操作で、L∞ では各画素を [x-ε, x+ε] にクリップし、さらに有効画素値域 [0,1] にもクリップします。ランダム初期化は、損失曲面の異なる局所最大へ到達して攻撃の取りこぼしを減らす役割を持ちます。PGD は経験的に最強の一次(勾配ベース)攻撃とされ、防御の評価基準(ベンチマーク)として広く使われます。

攻撃勾配計算強さ主な用途
FGSM1回弱い(線形近似)高速な敵対的訓練・素早い脆弱性チェック
PGDT回(反復+射影)強い(一次攻撃の代表)防御のロバスト性評価の基準
C&W最適化ベース非常に強い最小摂動の精密探索

なぜ効くのか:決定境界の線形性仮説

直感に反するのは「なぜこれほど小さな ε で出力が大きく変わるのか」です。Goodfellow らの線形性仮説はこう説明します。多くのモデルは効率的な学習のため、局所的にはほぼ線形に振る舞います。線形な出力 wᵀx に摂動 δ を加えると、出力の変化は wᵀδ です。L∞ 制約 ‖δ‖∞ ≤ ε のもとで wᵀδ を最大化すると δ = ε·sign(w) となり、変化量は次のようになります。

wᵀδ = ε · Σ |w_i|   (i = 1 .. d)

重要なのは、これが入力次元 d に比例して積み上がる点です。1次元あたりの変化は ε とごく小さくても、d が数千〜数万あれば総和は巨大になります。つまり「各画素はほとんど変えていない」のに「内積(出力)は大きく動く」という、次元の呪いの裏返しが起きています。これが、小さな ε で誤分類を誘発できる理由の核です。線形モデルの脆弱性が、局所線形な深層ネットにもそのまま遺伝していると解釈できます。

勾配マスキングという落とし穴

防御がモデルの勾配をわざと使いにくくする(勾配を消す・砕く)と、勾配ベースの攻撃が「効かないように見える」ことがあります。これは勾配マスキングと呼ばれる見かけ倒しで、真のロバスト性ではありません。勾配を使わない攻撃や転移攻撃には簡単に破られます。ロバスト性を主張するときは PGD だけでなく、適応的攻撃(防御の中身を知った上で設計した攻撃)で評価する必要があります。

敵対的訓練:min-max ロバスト最適化

守る側の王道が**敵対的訓練(adversarial training)**です。普通の学習は損失の期待値を最小化しますが、敵対的訓練は「各サンプルで最悪の摂動を受けたときの損失」を最小化します。内側に最大化、外側に最小化を入れ子にした min-max 問題として定式化されます(Madry らの定式化)。

min_θ  E[ max_{δ∈S}  L(θ, x+δ, y) ]
       └外側最小化┘ └─内側最大化─┘

内側の max は「与えられたモデルに対する最強の攻撃を見つける」サブ問題で、実際にはPGD で近似的に解きます。外側の min は、その最悪ケース損失を 勾配降下法 で下げる通常の学習です。学習ループは「各ミニバッチで PGD 攻撃サンプルを生成 → それを使ってパラメータ更新」を繰り返します。

ここで効くのがダンスキンの定理です。内側 max の最大点 δ* が求まっていれば、外側の勾配は「δ* を固定したときの ∇θ L(θ, x+δ*, y)」で与えられる、という結果で、これが「攻撃サンプルで普通に逆伝播してよい」根拠になります。ただし内側を厳密に解けない(PGD は近似)ため保証は完全ではなく、コストも通常学習の数倍(PGD ステップ数倍の勾配計算)になります。生成器と識別器を競わせる GAN と同じく、攻撃と防御を交互に最適化する点で「敵対的」という名を共有しますが、目的構造は別物です。

ロバスト性と精度のトレードオフ

敵対的訓練は、摂動下の精度(ロバスト精度)を上げる代わりに、摂動なしの精度(クリーン精度)をしばしば下げます。最悪ケースに備える分、決定境界が滑らかで保守的になるためです。さらに、ある ε・あるノルムで訓練したロバスト性は、別のノルム(例:L∞ で訓練して L2 で攻撃)には移りにくい。「どの脅威モデルに対するロバスト性か」を常に明示するのが実務の鉄則です。

転移性:攻撃はモデルをまたぐ

敵対的サンプルの厄介な性質が転移性(transferability)です。あるモデルAで作った攻撃サンプルが、構造も学習データも異なる別モデルBにもしばしば効きます。これが成り立つのは、異なるモデルでも似たデータで訓練すれば似た決定境界・似た勾配方向を学ぶためで、線形性仮説とも整合します。

転移性の帰結がブラックボックス攻撃です。攻撃者は標的モデルの内部(勾配)を知らなくても、手元の代理モデル(サロゲート)で攻撃を作り、それを標的へ転移させられます。API 越しにしか触れないモデルでも、入出力の観測から代理を訓練すれば攻撃可能になる——これが敵対的サンプルを実運用上の脅威にしています。

認証付きロバスト性:保証のある防御

敵対的訓練が与えるのは「試した攻撃には耐えた」という経験的ロバスト性で、未知の強い攻撃に破られる可能性が残ります。これに対し認証付き(certified)ロバスト性は、「x を中心とする半径 ε の球内のどんな入力に対しても予測が変わらない」ことを数学的に証明します。証明できた半径を認証半径と呼びます。代表的なアプローチは2系統です。

手法保証の出し方特徴
区間境界伝播(IBP)等各層の出力範囲を区間/凸緩和で上下から囲い、出力ロジット差の符号が反転しないことを示す決定的な保証。緩和が粗いと半径が小さく保守的
ランダム化平滑化入力にガウスノイズを加えた多数決を分類器とし、確率的に認証半径を導く(Neyman-Pearson)大規模モデルでも適用可。L2 で強く、保証は高確率

ランダム化平滑化は、ノイズを足した入力での多数決クラスを出力とする「平滑化分類器」を作り、その最頻クラスの確率と次点の確率の差から、予測が不変でいられる L2 半径を解析的に導きます。証明可能ですが、認証半径は経験的ロバスト性が実際に耐える範囲より小さくなりがちで、保証と実用性のギャップが残ります。防御の強さを比較するときは、経験的(PGD 精度)と認証(証明された半径)のどちらを語っているかを区別することが、モデル評価 の正確さに直結します。

試験・面接での頻出ポイント
  • FGSM の式δ = ε·sign(∇x L)。なぜ勾配の符号だけかを L∞ 制約から説明できること。
  • PGD = 射影勾配法:内側最大化を反復で解き、毎回 ε球+画素域へ射影する。一次攻撃の代表で評価基準。
  • 線形性仮説:摂動の影響 ε·Σ|w_i| が次元 d に比例して積み上がるため、小さい ε でも効く。
  • min-maxmin_θ E[max_δ L]。内側 max を PGD で近似、ダンスキンの定理で外側勾配を正当化。
  • 経験的 vs 認証:前者は「試した攻撃に耐えた」、後者は「ε球内で予測不変を証明」。区別必須。

まとめ

敵対的サンプルは、モデルの「バグ」というより高次元・局所線形なモデルの構造的帰結です。攻撃は損失を L∞ 球内で最大化する問題で、1ステップが FGSM、反復+射影が PGD。なぜ効くかは線形性仮説——摂動の効果が次元に比例して積み上がる——で説明できます。守る側は内側最大化(PGD)と外側最小化(学習)の min-max を解く敵対的訓練が王道ですが、それは経験的保証にとどまり、転移性によってブラックボックスでも脅威が成立します。真に「証明された安全」を求めるなら、認証半径を導くランダム化平滑化や凸緩和へ進みます。ロバスト性を語るときは、ノルム・ε・脅威モデル・保証の種類を常にセットで明示する——これが原理を踏まえた実務の出発点です。

AI/機械学習 Article

敵対的サンプルとロバスト性の数理を実務で読む

TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。

解決すること

敵対的サンプル

比較で見る軸

難易度: advanced / カテゴリ: AI/機械学習 / タグ数: 5

導入後に効く点

高次元では決定境界がほぼ線形に振る舞うため、各次元のわずかな摂動が内積で積み上がり、合計εが小さくても出力を大きく動かせる(線形性仮説)。

先に潰すリスク

用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。

数字・仕様の読み方
難易度
advanced
カテゴリ
AI/機械学習
タグ数
5

判断チェックリスト

  • 自社の用途が「敵対的サンプル / ロバスト性」に近いか確認する。
  • 強みである「敵対的サンプルは、損失を増やす方向へ入力をL∞球内で微小に動かす最大化問題の解。1ステップ近似がFGSM、多ステップ反復がPGDで、PGDは経験的に最強の一次攻撃。」が本当に評価軸になるか確認する。
  • 注意点の「用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。」を運用で吸収できるか確認する。
  • 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
  • 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
  • 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。

次に確認する観点

敵対的サンプルロバスト性PGD敵対的訓練セキュリティ敵対的サンプルロバスト性PGD
参考: 公式情報