放射線影響とソフトエラー(SEU・SER)
宇宙線や微量放射線でメモリのビットが化ける理由を原理から理解できます。電荷収集と臨界電荷の関係、SEU・マルチビット反転の機構、ECC・冗長・SOIによるソフトエラー率対策まで一本で押さえられます。
- 1.ソフトエラーは粒子(宇宙線2次中性子・パッケージや配線材由来のα線)が半導体中で電子正孔対を作り、ノードに電荷を注入してビットを反転させる現象。物理破壊を伴わず再書き込みで直る非破壊故障で、これがSEU(シングルイベントアップセット)。
- 2.反転するかは収集電荷とノードを保持する臨界電荷 Qcrit の大小で決まる。微細化で Qcrit が下がる一方、1粒子が複数セルに渡って電荷を撒くため隣接ビットが同時に化けるマルチビットアップセット(MBU)が増え、単純な訂正では追いつかなくなる。
- 3.対策は階層的。物理層でα線源を減らしBOXで電荷収集を断つSOI、回路層でDICEセルや多数決の冗長、システム層でSECDED ECC・インターリーブ・スクラビング。SERはFITで定量し中性子加速試験で評価する。
ソフトエラーとは「壊れていないのに値が化ける」故障
半導体の故障というと配線の断線や絶縁膜の破壊(/semiconductor/reliability-physics/ で扱う経年劣化)を思い浮かべますが、ソフトエラーはまったく別の系統です。デバイス自体は健全なまま、保持していたビットの値だけが一時的に反転する非破壊の故障で、放射線(粒子)の一撃が原因になります。物理的に壊れないので、上書きすれば元どおり正しく動きます。この「直ってしまう」性質ゆえに、製造不良の選別では捕まえられず、市場で偶発的に発生し続けるのが厄介な点です。
1つの粒子が引き起こす単発のビット反転を**SEU(Single Event Upset、シングルイベントアップセット)**と呼びます。SEU はソフトエラーの代表で、SRAM(/semiconductor/sram-cell/)のラッチやフリップフロップ、DRAM(/semiconductor/dram-cell/)のキャパシタに蓄えた電荷を狂わせます。
ソフトエラー(soft error)は値が化けるだけで素子は無傷、再書き込みで回復する一時故障。対してハードエラー(hard error)は素子そのものが壊れる恒久故障です。同じ放射線でも、電荷注入によるビット反転(SEU)は回復可能なソフトエラーですが、強い1粒子がトランジスタを焼く SEL(シングルイベントラッチアップ)や SEGR(ゲート破壊)はハードエラーになります。本稿は主に回復可能なソフトエラー側を扱います。
何が当たるのか ── 中性子とα線という2つの主因
地上で問題になる放射線源は大きく2つです。第一に宇宙線由来の2次中性子。宇宙から飛来する1次宇宙線が大気と衝突して降り注ぐ中性子で、電荷を持たないため物質を深く透過します。中性子そのものはイオン化しませんが、シリコンの原子核と核反応を起こして荷電粒子(反跳核やα粒子)を生み、それが電子正孔対を作ります。標高が高いほど中性子フラックスが増えるため、航空機高度やデータセンタの所在地で発生率が変わります。
第二にα線。これはパッケージ材・はんだ・配線金属(/semiconductor/reliability-physics/ でも触れる Cu や Sn など)にごく微量含まれるウランやトリウムの放射性崩壊で出るヘリウム核です。飛程は短いものの、チップのすぐ近くで発生するため直接シリコンをイオン化します。歴史的には、はんだの放射性同位体由来のα線がDRAMのソフトエラーを引き起こした事例が問題を顕在化させました。
| 線源 | 由来 | 性質 | 効きやすい対象 |
|---|---|---|---|
| 2次中性子 | 宇宙線と大気の核反応 | 非電荷・高透過、核反応で荷電粒子を生む | 全般(標高依存・深部にも到達) |
| α線 | パッケージ/はんだ/金属中のU・Th崩壊 | 荷電・短飛程、直接イオン化 | チップ近傍の素子(材料純度に依存) |
| 熱中性子 | 環境中性子の減速成分 | ホウ素10との反応で荷電粒子を放出 | BPSG等ホウ素含有膜のある世代 |
電荷収集の機構 ── 1粒子がどうビットを倒すか
荷電粒子がシリコンを貫くと、その飛跡に沿って高密度の電子正孔対が生成されます。これがビット反転に至る過程は段階的です。まず逆バイアスされたpn接合(/semiconductor/dram-cell/ の蓄積ノードや SRAM のオフ側ドレイン)の空乏層に電荷が入ると、強い電界で一瞬にして引き込まれます(ドリフト収集、ピコ秒オーダー)。
特徴的なのが、初期に空乏層が飛跡方向へ一時的に伸びるファネリング(funneling)で、本来なら空乏層の外にあった電荷まで効率的にノードへ集めてしまいます。その後はゆっくりした拡散収集が続きます。結果としてノードには鋭い電流パルス(SET、シングルイベントトランジェント)が流れ込みます。
1粒子が起こすソフトエラーの連鎖
1. 粒子入射 → 飛跡に沿って電子正孔対を生成
2. ドリフト収集(空乏層・電界で高速)+ ファネリングで増強
3. 拡散収集(周辺から遅れて到達)
→ ノードに電流パルス(SET)= 収集電荷 Qcoll
4. Qcoll が臨界電荷 Qcrit を超える → ノード電圧が反転
5. ラッチ/セルが逆状態に保持 → ビット反転(SEU)
反転条件: Qcoll が Qcrit 以上
メモリやラッチは正帰還で状態を保持しているため、ノード電圧がいったん閾を越えて反転すると、回路自身がその逆状態を安定に保持してしまいます。組み合わせ回路を通り抜けただけのパルス(SET)は、たまたまその瞬間にフリップフロップが取り込まなければ消えますが、記憶素子に取り込まれた反転は次の上書きまで残ります。
臨界電荷 Qcrit ── 反転するか否かの境目
反転するかどうかを決める単一の量が**臨界電荷 Qcrit(critical charge)**です。これは「ノードの状態を反転させるのに必要な最小の注入電荷」で、おおまかにはノード容量と電圧振幅の積(蓄えている電荷量)に対応します。収集電荷 Qcoll が Qcrit 未満なら回復し、Qcrit 以上なら反転する、という明快な閾です。
ここに微細化(/semiconductor/sram-cell/ のセル縮小)の難しさが出ます。世代が進むと動作電圧が下がりノード容量も小さくなるため、Qcrit が下がる。つまり同じ1粒子でも反転しやすくなります。一方でセルが小さくなれば1粒子が当たる断面積(感受断面積)も減るため、単純にビット当たりの率が増えるとは限りません。実際、SRAM のビット当たりソフトエラー率は世代を超えてある程度横ばいに保たれてきました。しかしチップあたりのビット数が爆発的に増えるため、システム全体のソフトエラー率は上昇圧力を受け続けます。
微細化の真の問題は単発反転より、1粒子が複数の隣接セルにまたがって電荷を撒くことです。セル間隔が粒子の飛跡や拡散範囲より狭くなると、1回の入射で2ビット・3ビット以上が同時に化ける MBU(Multiple Bit Upset)が起きます。1ワード内で複数ビットが同時に化けると、1ビットしか直せない訂正符号は無力化します。後述するインターリーブが効くのはこのためで、MBU 耐性の設計はもはや微細メモリの必須要件です。
ソフトエラー率(SER)をどう測るか ── FITと加速試験
ソフトエラーの起こりやすさを表す指標が**SER(Soft Error Rate)で、単位には信頼性で標準のFIT(Failures In Time、10億デバイス時間あたりの故障回数)**を使います。1 FIT は「10億時間の稼働で1回」の故障に相当します。メモリでは「ビット当たり FIT」「Mビット当たり FIT」で表し、チップやシステムの FIT はその積み上げで見積もります。
実時間で測るのは非現実的なので、加速試験を行います。中性子は加速器の中性子ビーム(広いエネルギースペクトルを地上環境に近づけたもの)を当てて短時間に多数のイベントを起こさせ、地上フラックスへ換算します。α線はチップ表面に既知強度のα線源を密着させて率を測ります。
SER 評価の流れ
1. 中性子ビーム/α線源で加速照射 → 単位時間あたりの反転数を計測
2. 線源強度と地上の自然フラックスの比で実環境へ換算
3. ビット当たり FIT を算出(中性子寄与+α線寄与を合算)
SER_chip ≈ FIT_bit × ビット数
4. ECC・冗長による低減率(緩和係数)を掛けて実効 SER を出す
5. システム要件(例: 許容 FIT/筐体)を満たすか判定
FIT の目安: 1 FIT = 10億デバイス時間に1回の故障
ここで重要なのは、**生のセル SER(raw SER)と、訂正後にシステムへ抜けてしまう実効 SER(residual/SDC率)**を区別することです。ECC が効いていれば、生の反転がいくら起きても訂正で消え、システムが観測する実効 SER は桁で下がります。設計の目標は raw を下げることではなく、訂正できずに残るエラーを規格内に収めることにあります。
対策の三層 ── 物理・回路・システムで重ねて守る
ソフトエラー対策は単一の手段では足りず、入射そのものを減らす物理層、反転しにくくする回路層、反転を検知訂正するシステム層を重ねて設計します。
物理・プロセス層では、まず線源を断ちます。α線対策として低α純度のパッケージ材・はんだ・配線金属を選び、熱中性子と反応するホウ素10を含む膜(BPSG等)を避けます。デバイス構造ではSOI/FD-SOI(/semiconductor/soi-fdsoi/)が強力です。埋め込み酸化膜(BOX)が活性層と基板を分離するため、基板深部で生成された電荷が拡散収集されるのを物理的に断ち切り、収集電荷 Qcoll を大幅に減らせます。立体構造(FinFET/GAA)も空乏体積が小さく、バルク平面より収集電荷が減る傾向があります。
回路層では、反転に強いセルを使います。代表が**DICE(Dual Interlocked Storage Cell)で、状態を2重に冗長保持し、片側のノードが粒子で乱されても残る側から復元します。フリップフロップでは多数決をとるTMR(Triple Modular Redundancy、三重冗長)**で、3つの複製の出力を多数決し1つの反転を握りつぶします。ノード容量を意図的に足して Qcrit を上げる手もありますが、速度と面積を犠牲にします。
システム層は最も費用対効果が高く、メモリでは事実上必須です。
| 手法 | 層 | 効くエラー | 代償・限界 |
|---|---|---|---|
| 低α材料・脱ホウ素 | 物理 | α線・熱中性子由来 | 材料コスト、中性子本体には無力 |
| SOI/FD-SOI・立体構造 | デバイス | 基板拡散収集を抑制しQcollを低減 | プロセスコスト、完全には防げない |
| DICE・TMR冗長 | 回路 | ラッチ/FFの単発反転 | 面積・電力・速度の増大 |
| SECDED ECC | システム | 1ワード内1ビット訂正・2ビット検出 | MBUには弱い→インターリーブ併用 |
| インターリーブ | システム | 隣接MBUを別ワードに分散 | 配線複雑化、訂正符号は別途必要 |
| スクラビング | システム | 誤りの蓄積(2重化)を防ぐ | 定期読み書きのオーバーヘッド |
システム層の主役 ── ECC・インターリーブ・スクラビング
メモリ保護の標準は**ECC(誤り訂正符号)です。最も普及したSECDED(Single Error Correction, Double Error Detection)**はハミング符号系で、1ワードあたり1ビットの反転を訂正し、2ビットの反転を検出(訂正不能として報告)します。DRAM ではこの ECC が長年使われ、NAND(/semiconductor/nand-ecc-ftl/)ではより強力な LDPC が用いられます。
ただし SECDED は1ワード内に1ビットしか直せないため、MBU で同一ワードに2ビット化けるとお手上げです。ここで効くのがインターリーブ(bit interleaving)で、論理的に同じワードに属するビットを物理的に離して配置します。こうすると1粒子が物理的に隣り合うセルを複数倒しても、それらは別々の論理ワードに散るため、各ワードから見れば1ビット反転にしかならず、SECDED で救えます。MBU 対策はインターリーブと ECC の組で初めて成立します。
最後がスクラビング(scrubbing)です。SECDED は2ビットになると訂正できないので、1ビット反転が放置されたままもう1ビット反転が重なる前に直さねばなりません。そこでメモリを定期的に読み出し、訂正可能なエラーを見つけたら書き戻して消し込みます。
誤り蓄積を防ぐスクラビング
for 全アドレスを周期的に巡回:
data, syndrome = ECC読み出し(addr)
if 訂正可能な1ビットエラー:
訂正後のdataを書き戻す # 反転を消し込む
if 訂正不能(2ビット以上):
上位へ報告(DUE扱い)
狙い: 1ビットエラーが2ビットに育つ前に除去し
SECDEDの「1ワード1ビット」前提を維持する
「ソフトエラーはなぜ起きる?」には、粒子(中性子2次粒子・α線)が電子正孔対を作りノードに電荷を注入、収集電荷 Qcoll が臨界電荷 Qcrit を超えると反転、と機構で答えます。続けて「微細化で Qcrit が下がり MBU が増える」「SECDED は1ワード1ビットしか直せないのでインターリーブで隣接 MBU を別ワードへ散らす」「蓄積を防ぐスクラビング」「SOI の BOX で基板拡散収集を断つ」「SER は FIT で表し中性子加速試験で評価」までつなげれば完答です。SEU(回復可能)と SEL/SEGR(破壊的)の区別も押さえておきましょう。
まとめ
- ソフトエラーは素子が無傷のまま値だけ反転する非破壊故障。粒子(宇宙線2次中性子・パッケージや材料由来のα線)が電子正孔対を作り、ノードに電荷を注入して起こる。単発反転が SEU。
- 反転は 収集電荷 Qcoll が臨界電荷 Qcrit 以上で起きる。ドリフト収集+ファネリング+拡散収集で電荷が集まり、正帰還のラッチ/セルが逆状態を安定保持してしまう。
- 微細化で Qcrit が下がり、1粒子が複数セルを倒す MBU が増えるため、単純な1ビット訂正では追いつかなくなる。
- 対策は三層で重ねる。物理層は低α材料・脱ホウ素と SOI(/semiconductor/soi-fdsoi/)の BOX による拡散収集遮断、回路層は DICE・TMR 冗長、システム層は SECDED ECC+インターリーブ+スクラビング。
- SER は FIT で定量し中性子加速試験とα線源で評価。重要なのは生のセル SER ではなく、訂正後に残る実効 SER を規格内に収めること。SRAM(/semiconductor/sram-cell/)・DRAM(/semiconductor/dram-cell/)・NAND(/semiconductor/nand-ecc-ftl/)でそれぞれ最適な符号が選ばれる。
半導体 Article
放射線影響とソフトエラー(SEU・SER)を実務で読む
TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。
解決すること
半導体
比較で見る軸
難易度: advanced / カテゴリ: 半導体 / タグ数: 6
導入後に効く点
反転するかは収集電荷とノードを保持する臨界電荷 Qcrit の大小で決まる。微細化で Qcrit が下がる一方、1粒子が複数セルに渡って電荷を撒くため隣接ビットが同時に化けるマルチビットアップセット(MBU)が増え、単純な訂正では追いつかなくなる。
先に潰すリスク
用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。
- 難易度
- advanced
- カテゴリ
- 半導体
- タグ数
- 6
判断チェックリスト
- 自社の用途が「半導体 / 信頼性」に近いか確認する。
- 強みである「ソフトエラーは粒子(宇宙線2次中性子・パッケージや配線材由来のα線)が半導体中で電子正孔対を作り、ノードに電荷を注入してビットを反転させる現象。物理破壊を伴わず再書き込みで直る非破壊故障で、これがSEU(シングルイベントアップセット)。」が本当に評価軸になるか確認する。
- 注意点の「用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。」を運用で吸収できるか確認する。
- 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
- 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
- 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。