メモリ階層図 ─ レジスタからストレージまでの遅延と容量

なぜ1種類のメモリで済まないのか

理想は「CPUのレジスタと同じ速さで、ディスクと同じ容量で、しかも安い」メモリです。しかし物理と経済がこれを許しません。速い記憶素子（SRAM）はトランジスタを多く使い、面積あたりの容量が小さく高価です。大容量素子（DRAM、NAND、磁性体）は安いが遅い。1種類で全要求を満たせないので、速度の異なる記憶を階層に積み、上位ほど小容量・高速、下位ほど大容量・低速とする。これがメモリ階層です。

階層が成立する前提は参照の局所性です。プログラムは直近に触ったアドレス（時間的局所性）とその近傍（空間的局所性）を高頻度で再利用します。だから少量の高速層に最近使ったデータを置くだけで、大半のアクセスを上位で完結できます。局所性がなければ階層は無意味で、毎回最下層まで降りる羽目になります。

階層を数字で見る ─ 容量・レイテンシ・帯域・コスト

各層の代表値を並べます。実装・世代で変動するため桁の感覚を掴むための概数です。

層	代表容量	レイテンシ	帯域(目安)	相対コスト
レジスタ	数百バイト	約0.3ns(1サイクル)	TB/s級	最高
L1キャッシュ	32〜64KB/コア	約1ns(4サイクル)	数TB/s	非常に高
L2キャッシュ	256KB〜2MB/コア	約3〜4ns	TB/s級	高
L3キャッシュ	数MB〜数十MB	約10〜20ns	数百GB/s	高
DRAM(主記憶)	8〜128GB	約80〜100ns	数十GB/s	中
NVMe SSD	数百GB〜数TB	約20〜100µs	数GB/s	低
HDD	数TB〜十数TB	約5〜10ms	100〜250MB/s	最低

注目すべきは段差の大きさです。L1からDRAMまでで約100倍、DRAMからSSDで約1000倍、SSDからHDDでさらに約100倍。HDDの10msはL1の1nsに対して約1000万倍であり、ナノ秒とミリ秒の差は「1秒対116日」に相当します。線形軸ではレジスタ〜L3が原点に潰れて見えないため、可視化は必ず対数スケールを使います。

階層をピラミッドとして読む

容量とコストの関係を、上が尖り下が広い三角形（ピラミッド）として擬似的に描くと次のようになります。幅は容量、高さ位置は速度の順位を表します。

            ┌──────────┐         速い・小さい・高価
            │ レジスタ │   数百B   ← CPUコア内、1サイクル
            ├──────────┤
            │   L1     │  〜64KB
          ┌─┴──────────┴─┐
          │     L2       │  〜2MB
        ┌─┴──────────────┴─┐
        │       L3         │  〜数十MB   ← ここまでSRAM(オンチップ)
      ┌─┴──────────────────┴─┐
      │     DRAM (主記憶)     │  〜128GB  ← ここから別チップ
    ┌─┴──────────────────────┴─┐
    │      SSD (NVMe)          │  〜数TB
  ┌─┴──────────────────────────┴─┐
  │         HDD / オブジェクト   │  〜数十TB  遅い・大きい・安価
  └──────────────────────────────┘

横方向の境界が重要です。レジスタ〜L3まではCPUダイ上のSRAM、DRAM以下は別チップやデバイスです。この境界を越えるたびにアクセスは物理的に遠くなり、信号の往復・プロトコル変換・媒体特性が加わってレイテンシが跳ね上がります。さらにレジスタとキャッシュはハードウェアが透過的に管理しますが、DRAMとSSD/HDDの境界はOS（ページング、ファイルシステム）がソフトウェアで管理する、という運用上の断層もここにあります。

なぜ階層化で速さと大きさを両立できるのか

鍵は**平均アクセス時間（AMAT）**です。2層に単純化すると次式で表せます。

AMAT = ヒット時間 + ミス率 × 下位層アクセス時間

これを階層全体へ再帰的に適用します。下位層のアクセス時間自体が、さらに下の層を含むAMATになる、という入れ子です。

AMAT(L1) = HitL1 + MissL1 × AMAT(L2)
AMAT(L2) = HitL2 + MissL2 × AMAT(L3)
AMAT(L3) = HitL3 + MissL3 × 主記憶アクセス

局所性のおかげで各層のミス率を低く（例: L1ミス率が数%）保てるため、AMATは最上位層の速度に近づきながら、実効容量は最下位層になります。たとえばL1ヒット時間1ns・L1ミス率5%・以降を平してミス時20nsとすると、平均は 1 + 0.05 × 20 = 2ns 程度に収まる。128GBの主記憶を持ちながら平均2nsで読める、という両立はこうして成立します。逆に局所性が崩れる（ランダムアクセスが大半）と各層のミス率が上がり、AMATは下位層の生レイテンシへ近づき、階層の利得が消えます。

包含関係と転送単位

上位層は下位層の部分集合を保持します。転送単位は層で異なり、キャッシュは64バイトのライン、DRAM⇔SSD/HDD間はOSが扱う4KBページ（あるいはより大きなブロック）です。下位層ほど往復コストが高いので、まとめて大きな単位で運び固定オーバーヘッドを償却します。HDDのシーク（数ms）を1回払うなら、数バイトでなく数十KB以上を一度に読むのが合理的です。

帯域とレイテンシは別物

階層を語るときレイテンシ（1回の往復時間）と帯域（単位時間あたりの転送量）を混同しないことが重要です。両者は独立に効きます。レイテンシが効くのは依存連鎖のある逐次アクセス（ポインタ追跡など、次のアドレスが前の結果に依存する場合）で、待ち時間がそのまま律速になります。帯域が効くのは独立な大量アクセス（連続走査、ストリーミング）で、複数の要求を並列に飛ばしてレイテンシを隠せます。

レイテンシは隠せる、容量と帯域は隠せない

レイテンシは並列実行やプリフェッチで「待っている間に別の仕事をする」ことで隠蔽できます。アウトオブオーダ実行が複数のロードを同時に進めるのも、GPUのワープ切り替えが待機中に別スレッドを走らせるのも本質は同じ隠蔽です。一方、容量の不足と帯域の飽和は隠せず、アルゴリズム側で参照量そのものを減らす（ブロッキング等）しかありません。

設計と実装への含意

階層の存在は、性能チューニングの指針を直接与えます。

作業集合を上位層に収める: ホットなデータ構造のサイズをL2/L3容量内に収めると、AMATが劇的に下がる。行列演算のタイル分割（キャッシュブロッキング）が典型。
アクセスを連続化する: 配列を行優先で走査する、構造体配列の代わりに配列構造体（SoA）を使うなど、空間的局所性を高めて1ライン/1ページの利用率を上げる。
境界をまたぐ回数を減らす: DRAM⇔SSDのページフォルトやSSD⇔HDDの段差は数桁重い。ランダムな小アクセスを避け、まとめ読み・まとめ書きで固定コストを償却する。

試験のポイント

「上位ほど高速・小容量・高価、下位ほど低速・大容量・安価」という単調な向き、「レジスタ＜キャッシュ＜主記憶＜補助記憶」の速度順、AMAT＝ヒット時間＋ミス率×ミスペナルティの式、そして階層が成り立つ根拠が局所性である点は頻出です。レイテンシの桁（ns/µs/ms）と層の対応（キャッシュ=ns、SSD=µs、HDD=ms）を即答できると応用に強くなります。

まとめ

メモリ階層は、速度と容量と価格を1素子で両立できない物理的・経済的制約への解で、上位ほど高速・小容量、下位ほど低速・大容量に積む。
隣接層でも容量・レイテンシは桁で変わり、レジスタ(0.3ns)からHDD(10ms)まで約1000万倍の幅があるため、可視化は対数スケールとピラミッドで行う。
階層が機能するのは局所性ゆえで、各層のミス率を低く保てるからAMATは最上位の速度に近づき、実効容量は最下位を使える。
レイテンシは並列・プリフェッチで隠せるが容量と帯域は隠せない。チューニングは作業集合を上位層に収め、アクセスを連続化し、境界をまたぐ回数を減らすのが筋。

各層の中身は別記事が掘り下げます。SRAMキャッシュの連想方式と置換はキャッシュメモリの原理、最下層SSDの内部制約はNANDフラッシュとSSDの内部を参照してください。

メモリ階層図 ─ レジスタからストレージまでの遅延と容量

なぜ1種類のメモリで済まないのか

階層を数字で見る ─ 容量・レイテンシ・帯域・コスト

階層をピラミッドとして読む

なぜ階層化で速さと大きさを両立できるのか

帯域とレイテンシは別物

設計と実装への含意

まとめ

メモリ階層図 ─ レジスタからストレージまでの遅延と容量を実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点