オンチップ熱とサーマルマネジメント
チップが熱で性能を落とす理由を、接合温度・熱抵抗ネットワーク・熱流束密度から原理で押さえ、サーマルスロットリングと3D積層の放熱設計まで一気に分かります。
- 1.消費電力は最終的に熱になり、接合温度 Tj が上限を超えると壊れるため、放熱は Tj = T周囲 + P × Rθ という熱抵抗ネットワークで決まります。接合-ケース-周囲の各段の Rθ が直列・並列でつながった回路として扱えます。
- 2.問題は平均ではなく局所で、面積あたりの発熱(熱流束密度 W/cm²)が高いホットスポットがチップ内で突出します。コアの一点だけが上限に達してサーマルスロットリングが発動し、全体の性能を縛ります。
- 3.3D積層では上層ダイの熱が下層を貫いてしか逃げられず放熱経路が深刻化します。TIM の熱抵抗削減、温度センサの局所配置、設計時のホットスポット分散が鍵になります。
消費電力はどこへ行くのか ── 熱になるという出発点
チップが消費した電力 P は、ごく一部の出力信号を除き、ほぼ全量が熱に変わります。スイッチングで容量を充放電したエネルギーも、リーク電流が電源から接地へ流した分も、最後は格子振動(フォノン)として散逸します。つまり消費電力の話(/semiconductor/power-wall/)の出口が、そのまま発熱の入口です。
設計で守るべき量は 接合温度 Tj(junction temperature)、すなわちトランジスタが動いているシリコン表面の温度です。Tj が上限(多くのロジックで 100〜125℃級)を超えると、リークが増えて熱暴走に向かい、信頼性劣化(/semiconductor/reliability-physics/)の速度が指数的に上がります。サーマルマネジメントとは、与えられた電力 P を放熱しきって Tj を上限以下に保つ営みです。
熱抵抗ネットワーク ── 接合-ケース-周囲を回路で解く
熱の流れは、定常状態では電気回路とまったく同じ形で扱えます。温度差を電圧、熱流(W)を電流、熱抵抗(℃/W)を抵抗に対応させると、オームの法則そのものになります。
熱と電気の対応(定常)
温度差 ΔT [℃] ←→ 電圧 V
熱流 P [W] ←→ 電流 I
熱抵抗 Rθ [℃/W] ←→ 抵抗 R
熱容量 C [J/℃] ←→ 容量(過渡応答に効く)
オームの法則: ΔT = P × Rθ
接合から周囲(空気)までの経路は、複数の熱抵抗を 直列 につないだものとして書けます。
接合 → ケース → ヒートシンク → 周囲
Tj = Ta + P × (Rθ_jc + Rθ_cs + Rθ_sa)
Rθ_jc : 接合-ケース間(ダイ内部とパッケージ。チップ構造で決まる)
Rθ_cs : ケース-ヒートシンク間(TIM と接触界面。設計で詰められる)
Rθ_sa : ヒートシンク-周囲間(フィン面積と風量で決まる。最も大きい)
ここで Ta は周囲温度です。総熱抵抗 Rθ_ja = Rθ_jc + Rθ_cs + Rθ_sa が小さいほど、同じ P でも Tj の上昇が抑えられます。直列なので どこか一段が大きいとそこが律速 になり、ヒートシンク(Rθ_sa)を強化しても TIM(Rθ_cs)が悪ければ効きません。並列経路(例えばパッケージ裏面からの放熱)がある場合は、抵抗の並列合成と同じく逆数和で合成します。
Rθ は熱が定常に達した後の値です。負荷が短時間バーストするときは、熱容量 C が効いて温度がすぐには上がりきりません。これを表すのが過渡熱インピーダンス Zθ(t) で、時間が短いほど見かけの抵抗が小さくなります。ターボブーストが一瞬だけ高クロックを許せるのは、この熱の時定数(数ミリ秒〜秒)のあいだ Tj が上限に届かないからです。
熱流束密度とホットスポット ── 平均では足りない
熱抵抗ネットワークはチップ全体を1点に集約したモデルですが、現実の故障は 局所 で起きます。効くのは総電力 P そのものより、面積あたりの発熱、すなわち 熱流束密度(heat flux、W/cm²) です。同じ 100W でも、広い面に均すのと、コアの数 mm² に集中させるのとでは局所温度がまるで違います。
シリコンの熱伝導は有限なので、発熱が集中した点(ホットスポット)からの横方向の熱拡散が追いつかず、その一点だけ Tj が突出します。
なぜ平均温度では設計できないか
チップ平均 80℃ でも …
高負荷の演算コア中心: 110℃(局所ホットスポット)
アイドルの I/O 領域 : 55℃
→ 上限判定は「最も熱い一点」で決まる
→ 全体電力に余裕があってもホットスポットが律速
ホットスポットは活性化率の高いブロック(演算器・クロック分配の根元)に現れやすく、ダイ上の電力分布(フロアプラン)が温度分布を直接決めます。だからこそ、熱を散らすために高発熱ブロックを物理的に離して配置する、という熱駆動フロアプランニングが上級設計の論点になります。
| 量 | 意味 | 効く場面 | 下げる手 |
|---|---|---|---|
| 総電力 P | チップ全体の発熱(W) | ヒートシンク・電源容量の設計 | DVFS・パワーゲーティング |
| 熱流束密度 | 面積あたり発熱(W/cm²) | ホットスポットの局所温度 | 高発熱ブロックの分散配置 |
| 熱抵抗 Rθ | 温度差/熱流(℃/W) | Tj から周囲までの上昇量 | TIM 改善・放熱面積拡大 |
| 接合温度 Tj | シリコンの実温度(℃) | 故障・スロットリング判定 | 上記すべての総合結果 |
サーマルスロットリングの制御ループ
放熱能力には上限があるので、最終的な安全弁はソフト/ハードで動的に発熱を絞る サーマルスロットリング(thermal throttling) です。これは温度センサを入力、電圧・周波数を出力とする閉ループ制御です。
スロットリングの閉ループ
温度センサ(複数)で Tj を推定
│
▼
Tj が目標(例 100℃)に接近?
│ Yes
▼
周波数 f を下げる → 続いて電圧 V も下げる
│
▼
P = αCV²f が落ちる → 発熱が減る → Tj が下がる
(V と f を協調して下げると電力は約3乗で減る)
電圧と周波数を同時に下げると、ダイナミック電力 P = αCV²f が周波数に対して約3乗で落ちるため、わずかな性能低下で大きく発熱を抑えられます。電源供給と熱は同じ制約の表裏で、電圧を下げる余地は電源網(/semiconductor/power-delivery-network/)の健全性とも結びつきます。制御の質は 温度をどれだけ正確かつ素早く測れるか に依存し、それがセンサ配置の問題に直結します。
温度センサは熱源そのものには置けず、近傍に分散配置します。センサとホットスポットの間に物理距離があると、測定温度は実 Tj より低く・遅れて出ます。この空間的・時間的な誤差ぶんをガードバンドとして低めの閾値で動かす必要があり、保守的にしすぎると本来出せる性能を捨て、攻めすぎると瞬間的な過熱を見逃します。ホットスポット直近に複数センサを置くのはこの誤差を詰めるためです。
3D積層で深刻化する放熱 ── 経路・TIM・センサ
平面チップでは、発熱したシリコンの裏面をヒートシンクに密着させれば最短経路で熱を抜けます。ところが先端パッケージング(/semiconductor/advanced-packaging-principles/)でダイを縦に積むと、この前提が崩れます。
2D と 3D の放熱経路の違い
2D(平面)
発熱ダイ ─裏面─ ヒートシンク … 経路が短く太い
3D(積層)
上層ダイ(高発熱ロジック)
│ 下層ダイを貫いて熱が流れる
下層ダイ(メモリ等)
│
基板側へ … 経路が長く、間に界面が増える
3D積層で何が起きるか。第一に、上層の高発熱ダイの熱が、下層ダイと積層界面を 貫通してしか 逃げられず、総熱抵抗 Rθ_jc が積み増しされます。第二に、ダイ間の各接合界面が新たな熱抵抗を足し、ホットスポット直下の温度が上がりやすい。第三に、熱に弱いブロック(リークと温度が正帰還するメモリや、温度ドリフトするアナログ)を高発熱ロジックの真上・真下に置くと、隣接ダイから熱を受けて誤動作します。
これらへの設計上の打ち手は三つに整理できます。
3D積層の熱設計の打ち手
TIM(Thermal Interface Material、熱界面材料)
: ダイ-ヒートシンク間や層間の微小な隙間を埋める
: 空気(断熱に近い)を高熱伝導材で置換し Rθ_cs を下げる
: 高性能品ではグリスより液体金属・はんだ系で界面抵抗を削る
温度センサの配置
: 各層のホットスポット近傍に分散して埋め込む
: 層ごとに Tj が違うため、最も熱い層・点を捉える
熱を意識した積層順とフロアプラン
: 高発熱ロジックを放熱経路(ヒートシンク側)に近づける
: 熱に弱いダイを高発熱ダイの直上直下から離す
: 必要なら層を貫く熱伝導パス(サーマル TSV)を設ける
TIM が重要なのは、界面の空気層が極めて熱を通しにくく、ここの Rθ_cs が直列経路の中で改善余地の大きい一段だからです。微視的には接触面はざらつきで点接触しかせず、隙間を高熱伝導材で埋めるだけで実効熱抵抗が大きく下がります。一方で、積層が増えるほど界面の数も増えるため、層ごとの TIM 品質が積み上がって効きます。
「なぜチップは熱で性能が頭打ちになるのか」と問われたら軸は三つ。第一に消費電力はほぼ全量が熱になり、Tj = Ta + P × Rθ の熱抵抗ネットワークで接合温度が決まる。第二に効くのは平均でなく面積あたりの熱流束密度で、ホットスポットの一点が上限に達してサーマルスロットリングが性能を縛る。第三に3D積層では上層の熱が下層を貫いてしか逃げられず Rθ が積み増され、TIM・センサ配置・熱駆動フロアプランで対処する。V²·f を協調して下げると発熱が約3乗で落ちる、まで言えれば十分です。
まとめ
- 消費電力はほぼ全量が熱になり、守るべきは 接合温度 Tj。
Tj = Ta + P × Rθで、接合-ケース-周囲の熱抵抗を直列・並列に合成した回路として解ける。 - 直列経路は 最大の一段が律速 で、ヒートシンクだけ強化しても TIM が悪ければ効かない。定常
Rθと過渡Zθ(t)は別物で、後者がターボブーストを許す。 - 故障は局所で起き、効くのは総電力より 熱流束密度(W/cm²)。ホットスポットの一点が上限に達し、最も熱い点で上限判定が決まる。
- サーマルスロットリング はセンサ入力・電圧周波数出力の閉ループ。
V²·fを協調して下げると発熱が約3乗で落ちるが、センサとホットスポットの距離が誤差を生む。 - 3D積層 は上層の熱が下層を貫いてしか逃げられず Rθ が積み増される。TIM による界面熱抵抗の削減、各層ホットスポット近傍への温度センサ配置、熱駆動の積層順・フロアプランが設計の核。
半導体 Article
オンチップ熱とサーマルマネジメントを実務で読む
TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。
解決すること
半導体
比較で見る軸
難易度: advanced / カテゴリ: 半導体 / タグ数: 6
導入後に効く点
問題は平均ではなく局所で、面積あたりの発熱(熱流束密度 W/cm²)が高いホットスポットがチップ内で突出します。コアの一点だけが上限に達してサーマルスロットリングが発動し、全体の性能を縛ります。
先に潰すリスク
用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。
- 難易度
- advanced
- カテゴリ
- 半導体
- タグ数
- 6
判断チェックリスト
- 自社の用途が「半導体 / サーマルマネジメント」に近いか確認する。
- 強みである「消費電力は最終的に熱になり、接合温度 Tj が上限を超えると壊れるため、放熱は Tj = T周囲 + P × Rθ という熱抵抗ネットワークで決まります。接合-ケース-周囲の各段の Rθ が直列・並列でつながった回路として扱えます。」が本当に評価軸になるか確認する。
- 注意点の「用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。」を運用で吸収できるか確認する。
- 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
- 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
- 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。