TL

Cloud Service

OCI GPU Compute (Bare Metal/VM)

学習・推論・HPC を高速化する NVIDIA GPU 搭載のベアメタル/VM インスタンス。クラスタネットワークの RDMA で複数ノードを低遅延に束ね、大規模分散学習も実行できる。AWS の P/G 系インスタンスに相当。

中級パフォーマンス効率コスト最適化信頼性
最終更新: 2026-06-28公式ドキュメント ↗
TL;DR要点だけ先に
  • 1.NVIDIA GPU を載せたベアメタル/VM を起動する OCI Compute の一形態。
  • 2.RDMA クラスタネットワークで複数 GPU ノードを低遅延・高帯域に束ねられる。
  • 3.AWS の P/G 系インスタンス相当。生成 AI 学習・推論・HPC 向け。

解決する課題

  • 大規模言語モデルの学習・ファインチューニングに必要な GPU を確保したい
  • 推論・画像生成・**HPC(数値計算・シミュレーション)**を高速化したい
  • 単一ノードに収まらないモデルを、複数 GPU ノードへ分散して学習したい
  • ノード間の通信がボトルネックにならない低遅延・高帯域ネットワークが欲しい

主要概念と用語

  • GPU シェイプ: GPU を搭載したシェイプ。BM.GPU 系(ベアメタル、複数 GPU 専有)と VM.GPU 系(VM、少数 GPU)があり、世代ごとに NVIDIA の GPU が載る
  • ベアメタル / VM: ベアメタルは仮想化レイヤーなしでホストを専有し全 GPU を使える。VM は GPU をより小さい単位で使える
  • クラスタネットワーク: 複数の GPU ノードを RDMA(RoCE) で接続し、低遅延・高帯域でノード間通信を行う専用ネットワーク
  • GPU メモリ(VRAM): GPU 上のメモリ。モデルとバッチが収まるかを左右する最重要リソース
  • NVLink / NVSwitch: ノード内 GPU 同士を高速接続する NVIDIA の技術。ベアメタルの多 GPU シェイプで活きる
  • GPU ドライバ / CUDA: GPU を使うためのドライバとランタイム。GPU 対応イメージや Marketplace イメージに同梱される場合がある

仕様・制限・クォータ

  • GPU シェイプは世代・GPU 種別ごとに搭載数や GPU メモリが異なる。提供有無はリージョンと可用性ドメインに依存し、全リージョンにあるわけではない
  • GPU 容量は需要が高く、サービスリミット(クォータ)の引き上げ申請や容量予約が前提になることが多い
  • ベアメタル GPU は停止中もコンピューティング課金が続く点に注意(多くの GPU/ベアメタルは停止で課金が止まらない)。ブート/ブロックボリュームは別途課金
  • マルチノード学習にはクラスタネットワーク対応のシェイプが必要。RDMA を使うには対応シェイプ・イメージ・配置の条件を満たす
  • OCPU/メモリの考え方は通常の Compute と共通だが、GPU 数は固定の組み合わせで提供されることが多い

内部の仕組み

OCI の GPU はベアメタルでは仮想化レイヤーなしにホストの全 GPU を専有でき、NVLink/NVSwitch によってノード内 GPU 間を高速に接続します。複数ノードをまたぐ大規模学習では、クラスタネットワークが鍵になります。

  • クラスタネットワークは RDMA over Converged Ethernet(RoCE) を用い、CPU を介さずに GPU/メモリ間でデータを転送して低遅延・高帯域を実現する
  • ノードは近接配置され、集団通信(all-reduce など)の遅延を抑える
  • ローカル NVMe を持つシェイプはホスト直結で高速だが揮発性。永続化はブロックボリューム/Object Storage へ
単一ノードか、マルチノードか

モデルとバッチが 1 ノードの GPU メモリに収まるなら、まず単一ノードで始めるのが簡単です。収まらない、または学習を高速化したい場合に、クラスタネットワーク対応シェイプでマルチノードへ広げます。

設計パターン / ベストプラクティス

  • まず VM の小さい GPU で検証し、本番の大規模学習でベアメタル/クラスタネットワークへ拡張
  • 分散学習はクラスタネットワーク対応シェイプを選び、近接配置で集団通信の遅延を抑える
  • データセットや成果物は Object Storage に置き、ノードはステートレスに保って再作成しやすくする
  • GPU ドライバ/CUDA の整合を取るため、GPU 対応イメージや Marketplace の HPC/ML イメージを起点にする
  • 高価な GPU を遊ばせないよう、ジョブ単位で起動・終了し、利用状況を監視して稼働率を上げる

運用・監視

  • OCI Monitoring でインスタンスのメトリクス、Logging でログを収集
  • GPU 使用率・GPU メモリ・温度は nvidia-smi や NVIDIA のエクスポータで取得し、稼働率とボトルネックを把握
  • クラスタネットワーク利用時はノード間帯域・遅延と集団通信の効率を確認
  • 起動トラブルはインスタンスコンソール接続 / シリアルコンソールで調査。GPU が見えない場合はドライバとイメージの整合を確認

コスト

GPU は単価が高いため、稼働率と中断許容性の設計がコストを大きく左右します。

購入オプション特徴向いている用途
従量(PAYG)定価で即時利用短期・検証・単発ジョブ
年間ユニバーサルクレジットコミットで割引定常的な学習・推論
容量予約GPU 枠を事前確保確実に確保したい大規模学習
プリエンプティブル割安だが中断ありチェックポイント前提のバッチ
停止しても課金が止まらないことがある

多くの GPU/ベアメタルシェイプは停止中もコンピューティング課金が続きます。使い終えたら停止ではなく終了(削除)するか、必要なときだけ起動する運用にしてコストを抑えます。

セキュリティ

  • インスタンスプリンシパルで資格情報のハードコードを回避し、Object Storage などへ安全にアクセス
  • プライベートサブネット + セキュリティリスト / NSG で公開範囲を最小化し、必要なら Bastion 経由で接続
  • ブート/ブロックボリュームは既定で暗号化、鍵は OCI Vault で管理
  • モデルや学習データは機微情報になり得るため、コンパートメントと IAM ポリシーで分離・最小権限を徹底

関連サービス・比較

通常の OCI Compute が CPU 中心の汎用 IaaS なのに対し、GPU Compute はそのシェイプ選択肢のうち GPU とクラスタネットワークに特化した使い方です。

観点OCI GPU ComputeOCI Compute(CPU)
主な用途学習・推論・HPC汎用 IaaS・Web・DB
アクセラレータNVIDIA GPUなし(CPU のみ)
ノード間接続RDMA クラスタネットワーク通常の VCN
停止時課金止まらないことが多い標準 VM は停止で止まる
AWS 相当P / G 系インスタンスEC2 汎用インスタンス

ハンズオン / CLI例

# GPU 対応シェイプの一覧を確認(コンパートメント内で利用可能なシェイプ)
oci compute shape list \
  --compartment-id ocid1.compartment.oc1..aaaa \
  --query "data[?contains(shape, 'GPU')].{Shape:shape, GPUs:gpus, GPUMemGB:\"gpu-description\"}" \
  --output table

# VM の GPU シェイプでインスタンスを起動(要: 適切な GPU 対応イメージ OCID)
oci compute instance launch \
  --availability-domain "xxxx:AP-TOKYO-1-AD-1" \
  --compartment-id ocid1.compartment.oc1..aaaa \
  --shape "VM.GPU.A10.1" \
  --image-id ocid1.image.oc1..bbbb \
  --subnet-id ocid1.subnet.oc1..cccc \
  --display-name gpu-train

# 起動後、SSH 接続して GPU が見えているか確認
# nvidia-smi

OCI Service

OCI GPU Compute (Bare Metal/VM)を実務で読む

TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。

解決すること

コンピューティング

比較で見る軸

クラウド: OCI / カテゴリ: コンピューティング / 難易度: intermediate

導入後に効く点

RDMA クラスタネットワークで複数 GPU ノードを低遅延・高帯域に束ねられる。

先に潰すリスク

サービス単体ではなく、権限、ネットワーク、監視、課金、バックアップを含めて設計する必要がある。

数字・仕様の読み方
クラウド
OCI
カテゴリ
コンピューティング
難易度
intermediate
関連資格
設計柱
performance / cost / reliability

判断チェックリスト

  • 自社の用途が「コンピューティング / performance」に近いか確認する。
  • 強みである「NVIDIA GPU を載せたベアメタル/VM を起動する OCI Compute の一形態。」が本当に評価軸になるか確認する。
  • 注意点の「サービス単体ではなく、権限、ネットワーク、監視、課金、バックアップを含めて設計する必要がある。」を運用で吸収できるか確認する。
  • 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
  • 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
  • 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。

次に確認する観点

コンピューティングperformancecostreliability