歩留まり学習とプロセスコントロール（SPC・APC）

なぜ「制御」と「学習」を分けて考えるのか

新しいプロセスを量産に立ち上げるランプアップ期の最大の課題は、歩留まり（/semiconductor/yield-defect-density/）をいかに速く引き上げるかです。ここには性質の異なる二つの活動が同居しています。一つは、すでに分かっている工程を規格内に保つこと（プロセスコントロール）。もう一つは、まだ原因不明の歩留まりロスの正体を突き止めること（歩留まり学習）。前者を担うのがSPCとAPC、後者を担うのがパレート分析と空間シグネチャ解析です。この二輪が噛み合って初めて、立ち上がりの傾きが急になります。

ばらつきの二分法が出発点

統計的工程管理の根本思想は、ばらつきを二種類に分けることです。**コモンコーズ（common cause）**は工程に常在する自然なランダムばらつきで、無数の小要因の積み重ね。**アサイナブルコーズ（assignable cause、特殊原因）**は装置故障・材料ロット変更・ミスアライメントなど、特定できる異常です。SPCの目的はただ一つ、コモンコーズのノイズに惑わされずアサイナブルコーズだけを検出して反応すること。両者を取り違えると、正常な揺らぎに過剰反応して逆に工程を荒らす（後述の過調整）。

SPC ── 管理図でアサイナブルコーズを検出する

SPCの中核は管理図（control chart）です。膜厚や線幅（CD）といった工程出力を時系列でプロットし、中心線（CL）と上下の管理限界（UCL/LCL）を引く。ここで決定的に重要なのは、管理限界が規格（spec）ではないことです。管理限界は工程自身のばらつきから統計的に決まる線（典型的には中心±3シグマ）で、「この工程が安定なら出力はこの帯に収まるはず」を表す。一方、規格は設計が要求する許容範囲。両者は別物で、管理図は「規格内かどうか」ではなく「工程が統計的に安定しているか」を見ます。

管理図（Xbar 図）の読み方

  UCL ─────────────────────────────  中心+3σ
        ・     ・        ・     ●←打点が限界外＝即異常
   CL ──・──・───・──・───・───────  中心線(目標)
      ・    ・     ・   ・
  LCL ─────────────────────────────  中心-3σ
       └─────────────────────────▶ ロット/時刻
  限界内でも「連続8点が片側」等のパターンは
  ドリフトの兆候としてWestern Electricルールで検出

打点が管理限界を超えれば即アサイナブルコーズと判断しますが、それだけでは遅い。限界内でも連続して片側に並ぶ・単調に増え続けるといったパターンは、平均がじわじわ動いている兆候です。これを拾うのがWestern Electricルール（例: 連続8点が中心線の同じ側、連続6点が単調増減）です。3シグマ限界を選ぶ理由も統計的で、正常な工程が偶然限界を超える確率（誤警報率）が約0.27%と十分小さく、無駄な介入を抑えられるからです。限界を狭めれば異常検出は速くなるが誤警報が増える、という感度と誤警報のトレードオフがここにあります。

工程能力（Cpk）と管理は別問題

管理図が「安定」と言っても、その工程が良品を作れるとは限りません。安定性は時間軸のばらつきの話、良品性は規格との余裕の話です。後者を測るのが工程能力指数Cpkで、規格中心からの片寄りと、規格幅に対するばらつき幅の比で定義されます。ざっくり「規格の端まで何シグマあるか÷3」。Cpkが1.33なら規格端まで4シグマあり、1.0なら3シグマちょうど。統計的に安定でもCpkが低い工程は、安定して規格を外すことがある。だからSPCで安定化したうえで、Cpkを上げる作業が別途必要になります。

APC ── ラン・ツー・ランでドリフトを自動補正

SPCは異常を検出して人に知らせる仕組みですが、半導体プロセスには時間とともに必ず進む系統的ドリフトがあります。エッチング装置のチャンバ壁の堆積物が増える、薬液が消耗する、ターゲットが摩耗する──こうしたゆっくりした変化を放置するとCpkが下がる。そこで前のロットの計測結果を使って次のロットのレシピを自動補正するのがAPC（Advanced Process Control）、その代表がラン・ツー・ラン（R2R）制御です。

R2Rの心臓は**EWMA（指数加重移動平均）**フィルタです。直近の計測誤差を重く、古い誤差を指数的に軽く重み付けして「真のドリフト」を推定し、装置の制御ノイズに振り回されないようにします。擬似コードで示すと次の通りです。

# ラン・ツー・ラン制御（EWMA フィルタ）
target  = 30.0     # 目標CD (nm)
lam     = 0.3      # EWMA重み(0<lam<1)。大きいほど追従、小さいほど平滑
gain    = 1.0      # 入力1あたりの出力変化(プロセスゲイン)
bias    = 0.0      # 推定された系統オフセット

for lot in production_lots:
    recipe   = (target - bias) / gain   # 補正レシピを算出
    measured = run_process(recipe)       # ロット投入→計測
    error    = measured - target
    bias     = lam * (measured - gain*recipe) + (1 - lam) * bias
    # 観測オフセットを指数加重し、推定オフセットbiasを更新→次ロットへ

ポイントは重みパラメータ lam の選び方です。lam を大きくすると最新の計測に強く追従してドリフトを速く追える反面、計測ノイズや単発の外れ値にも反応して制御自体が暴れる。lam を小さくすると平滑化が効いて安定するが、ドリフトへの追従が遅れる。これはSPCの感度・誤警報のトレードオフと表裏一体です。

過調整（タンパリング）── 制御が逆効果になる罠

最も危険な失敗は、コモンコーズの自然なばらつきをドリフトと誤認して毎ロット補正をかけることです。安定した工程に対し「目標とのズレ」をその都度打ち消そうとすると、補正そのものが新たなばらつきを注入し、何もしないより出力分散が増える。これがデミングの言うタンパリングで、漏斗実験で知られる古典的な罠です。だからR2Rは必ずSPCと組み合わせ、工程が統計的に安定なときだけ控えめに補正し、アサイナブルコーズが出たら制御を止めて原因を直す設計にします。EWMAの平滑化はこの過調整を抑える保険でもあります。

観点	SPC（管理図）	APC（R2R制御）
役割	監視・異常検出	フィードバック自動補正
反応の主体	人（アラート→調査）	装置（次ロットのレシピ）
対象とするばらつき	アサイナブルコーズ	系統的ドリフト
代表手法	管理図・WEルール・Cpk	EWMA・ラン・ツー・ラン
やってはいけないこと	規格と管理限界の混同	安定工程への過調整

歩留まり学習 ── パレートと空間シグネチャ

ここまでは「分かっている工程を保つ」制御の話でした。ランプアップで本当に効くのは、未知の歩留まりロスの原因を学習で潰すサイクルです。出発点はパレート分析。電気テスト（/semiconductor/wafer-fab-process-flow/後の最終テスト）やインライン検査（/semiconductor/inline-metrology-inspection/）で集めた不良を欠陥種・不良モードごとに集計し、ロスの大きい順に並べる。歩留まりロスはごく少数の原因に偏る（パレートの法則）ので、上位の数項目を潰すのが最も効率的です。

次に効くのが空間シグネチャ（spatial signature）の解析です。不良ダイをウェーハ上の座標にプロットしたウェーハマップは、不良の物理的原因ごとに特徴的な空間パターンを描きます。原因とパターンが結び付くため、マップの形が発生源工程を指し示す指紋になるのです。

ウェーハマップの空間シグネチャ → 推定原因

  リング状(同心円)   : 成膜/エッチングの径方向ムラ、温度勾配
  エッジ集中(外周)   : 端部の膜厚不均一、ベベル処理、搬送傷
  中心集中           : スピン塗布・CMPの中心圧依存
  スクラッチ(線状)   : ハンドリング傷、CMPパッドの異物
  ランダム散在       : パーティクル欠陥(欠陥密度D0が支配)
  繰り返し(レチクル) : マスク欠陥・露光ショット内の系統不良

このパターンと工程の対応が、原因の切り分けを劇的に速めます。同心円リングなら成膜やエッチング（/semiconductor/etching-deposition/）の径方向ムラ、中心集中ならCMP（/semiconductor/cmp-planarization/）の中心圧依存、レチクル周期で繰り返すならマスク・露光側、というように疑う工程を一気に絞れる。さらにパターンがロット内で同じ装置を通ったウェーハに偏るかを見れば、装置コミナリティ解析で犯人の号機まで突き止められます。

ランダム不良とシステマティック不良を分ける

歩留まりロスは大きく二種類です。ランダム欠陥はパーティクルなどによる確率的な不良で、ウェーハマップ上に散在し、欠陥密度D0とダイ面積で決まる（Murphyモデルの世界）。システマティック不良は設計・パターン・装置に起因する系統的な不良で、空間シグネチャや特定パターンに偏って現れる。ランプアップ初期に支配的なのは後者で、パレートと空間解析で一つずつ潰せる。両者を切り分けずに「歩留まりが低い」と一括りにすると、確率論で説明すべきものを装置のせいにしたり、その逆をやって遠回りします。

学習サイクルの全体像

制御と学習をひとつのループにまとめると、ランプアップは次のように回ります。

歩留まり学習サイクル（ランプアップ）

  テスト/検査 → 不良をパレートで層別 → 上位ロスを選ぶ
       ↑                                      │
       │                                      ▼
  プロセス改善 ◀── 発生源工程の特定 ◀── 空間シグネチャ/装置コミナリティ
       │                                      
       └→ SPCで監視・APCでドリフト補正して再発を防ぐ

パレートで「どのロスが大きいか」を決め、空間シグネチャと装置コミナリティで「どの工程・どの号機か」を特定し、プロセスを改善する。そして直した工程をSPCで監視しAPCで安定維持して再発を防ぐ。学習が原因を減らし、制御がそれを固定する。この往復の速さがランプアップの傾きそのものです。歩留まりが上がるにつれシステマティック不良が消え、残るランダム欠陥の世界（/semiconductor/yield-defect-density/）へ移行していきます。

試験・面接で問われる勘所

「管理限界と規格の違いは」と問われたら、管理限界は工程ばらつきから統計的に決まる安定性の線（±3シグマ）、規格は設計要求の許容範囲で別物、と即答する。「SPCとAPCの違いは」なら、SPCは異常を検出して人に知らせる監視、APCはEWMAで前ロットからドリフトを推定し次ロットのレシピを自動補正するフィードバック制御、と説明できればよい。「過調整（タンパリング）とは」なら、コモンコーズをドリフトと誤認して毎回補正し分散を増やす失敗、と答える。仕上げに、ランプアップはパレートで層別し空間シグネチャで発生源工程を特定する学習で立ち上げる、まで触れれば上級として十分です。

まとめ

ばらつきを**コモンコーズ（自然なノイズ）とアサイナブルコーズ（特定できる異常）**に分け、後者だけに反応するのがSPCの根本思想。
管理図は規格ではなく工程の安定性を見る道具で、±3シグマの管理限界とWestern Electricルールでドリフトを検出する。安定性とCpk（工程能力）は別問題。
**APC（ラン・ツー・ラン）**はEWMAで系統的ドリフトを推定し次ロットのレシピを自動補正する。安定工程への過調整（タンパリング）は分散を増やすため、SPCと組み合わせて使う。
ランプアップの歩留まり学習は、パレート分析でロスを層別し、ウェーハマップの空間シグネチャと装置コミナリティで発生源工程を特定する。
学習が原因を減らし、制御（SPC・APC）が再発を防ぐ往復でランプアップが進み、やがてランダム欠陥支配の世界（/semiconductor/yield-defect-density/）へ移行する。

歩留まり学習とプロセスコントロール（SPC・APC）

なぜ「制御」と「学習」を分けて考えるのか

SPC ── 管理図でアサイナブルコーズを検出する

APC ── ラン・ツー・ランでドリフトを自動補正

歩留まり学習 ── パレートと空間シグネチャ

学習サイクルの全体像

まとめ

歩留まり学習とプロセスコントロール（SPC・APC）を実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点