OCI Generative AIとは？仕組みを図解でわかりやすく解説

解決する課題

大規模言語モデル（LLM）を自前で調達・学習・GPU 上にホストすることなく、API 呼び出しだけで生成 AI を業務に組み込めます。インフラの調達や運用を抱えずに、複数の基盤モデルを試して切り替えられるのが価値です。

LLM を自社で学習・ホストしたくない（GPU 調達やモデル運用を避けたい）
複数の基盤モデルを統一した APIで試し、用途ごとに使い分けたい
自社データに合わせてカスタマイズ（ファインチューニング）したモデルを使いたい
推論を他テナントから分離し、安定したスループットで本番運用したい
生成 AI を OCI の IAM・ネットワーク・監査の枠組みの中で安全に使いたい

主要概念と用語

基盤モデル（Foundation Model）: 事前学習済みの大規模モデル。テキスト生成・チャット・要約などを行う。複数ベンダーのモデルがマネージドで提供される。Bedrock の基盤モデルに相当
事前学習モデル（Pretrained Model）: 追加学習なしでそのまま使えるモデル。汎用的な生成・要約・チャットに利用
カスタムモデル（Custom Model）/ ファインチューニング: 自社データで基盤モデルを追加学習し、特定タスクの精度や口調を調整したモデル
埋め込み（Embedding）: テキストをベクトル化するモデル。検索や RAG（検索拡張生成）の基盤になる
専用 AI クラスタ（Dedicated AI Cluster）: ファインチューニングや推論を専有 GPU 上で実行する分離単位。ホスティング用とファインチューニング用がある
エンドポイント（Endpoint）: 専用クラスタ上にホストしたモデルへ推論リクエストを送るためのアクセス先
オンデマンド推論: 専用クラスタを持たず、共有基盤で従量課金（トークン単位）で呼び出す方式
プロンプト（Prompt）/ トークン（Token）: 入力テキストと、課金・上限の単位となるテキストの最小片
コンテキストウィンドウ（Context Window）: 1 リクエストで扱える入力＋出力トークンの上限
RAG（検索拡張生成）: 外部の知識源を検索してプロンプトに与え、回答の根拠を補強する手法。埋め込みモデルとベクトル検索を組み合わせる
コンテンツモデレーション: 入出力の有害コンテンツを検出・フィルタする仕組み
コンパートメント: リソースを論理分離する OCI の枠組み（IAM の単位）

仕様・制限・クォータ

提供形態は オンデマンド推論（共有基盤・トークン従量）と 専用 AI クラスタ（専有 GPU・時間課金）の 2 系統がある
モデルごとにコンテキストウィンドウ（最大トークン数）が決まっており、入力＋出力の合計がこの上限に収まる必要がある
利用できるモデルやバージョンはリージョンによって異なるため、対象リージョンでの提供状況を確認する
基盤モデルは世代交代（廃止・置き換え）があり、古いモデルは段階的に提供終了となる。アプリ側でモデル ID を切り替えられる設計が望ましい
API レートや専用クラスタ数、ファインチューニングのジョブ数などにサービス制限（クォータ）があり、引き上げ申請が可能
埋め込みモデルは 1 リクエストで処理できる入力件数や次元数に上限がある

内部の仕組み

OCI Generative AI は、ベンダーが提供する基盤モデルを Oracle がマネージドでホストし、統一された API・SDK・コンソールから呼び出せるようにしたサービスです。リクエストはモデル ID とプロンプト、生成パラメータ（最大トークン数・温度など）を伴い、トークン化されてモデルに渡され、生成結果がトークン列として返ります。

オンデマンドでは共有のマネージド基盤上でモデルが動き、利用者は推論 API を呼ぶだけでよい
専用 AI クラスタを作成すると、専有の GPU 上にモデルがホストされ、エンドポイントを通じて他テナントの負荷から分離された推論ができる
ファインチューニングは専用クラスタ（ファインチューニング用）上で実行され、学習データ（プロンプトと期待出力の組）からカスタムモデルを生成する。生成したカスタムモデルは、ホスティング用クラスタにエンドポイントを作って推論する
生成パラメータで出力を制御する。温度（temperature）を下げると決定的に、上げると多様に、最大トークン数で出力長を制限する

オンデマンドと専用クラスタの使い分け

試作・低頻度・スパイクが読めない用途はオンデマンド（トークン従量で初期コストが小さい）、高頻度・安定したスループットや分離が必要な本番、ファインチューニングは専用 AI クラスタが基本です。専用クラスタは確保している間は時間課金になる点に注意してください。

横にスクロール

モデルAPI単体ではなく、入力最小化、検索根拠、構造検証、モデル版とトークンの観測までを一つの経路にする。

設計パターン / ベストプラクティス

まずオンデマンドでプロンプトと出力品質を検証し、要件が固まってから専用クラスタやファインチューニングへ進む
自社ドキュメントに基づいて回答させたい場合は、ファインチューニングより先に RAG を検討する。埋め込みモデルでベクトル化し、ベクトル検索（例: Oracle Database のベクトル検索や OpenSearch）で関連文書を引いてプロンプトに添える
ファインチューニングは、口調・形式・特定ドメインの知識を恒常的に作り込みたい場合に使う。学習データの品質と量が精度を左右する
アプリはモデル ID をハードコードせず設定値にし、モデルの世代交代に追従できるようにする
プロンプトはシステム指示・制約・出力フォーマットを明示し、最大トークン数で暴走を防ぐ
入出力にコンテンツモデレーションを組み込み、有害・不適切な生成を抑制する

運用・監視

OCI Monitoring で API 呼び出し数・レイテンシ・エラー率を監視し、専用クラスタの場合は稼働状況を追跡する
推論呼び出しやモデル・クラスタの作成削除は OCI Audit に記録され、誰がいつ何を呼んだかを追跡できる
レート超過（スロットリング）が出たら、リトライにバックオフを入れる、オンデマンドから専用クラスタへ切り替える、クォータ引き上げを申請するなどで対処する
トークン消費量を可視化し、想定外のコスト増（長すぎるプロンプトや無制限の出力）を早期に検知する
ファインチューニングや専用クラスタ作成は非同期ジョブ（Work Request）として進捗を確認できる
モデルの廃止スケジュールを把握し、後継モデルへの移行を計画的に行う

コスト

課金は提供形態で大きく異なります。オンデマンドは消費トークン量に応じた従量課金、専用 AI クラスタは確保している GPU の時間課金が基本です。具体的な単価はモデル・リージョン・時期で変動するため、公式の価格表で確認してください。

コスト要素	課金の考え方	最適化のポイント
オンデマンド推論	入力＋出力のトークン量に応じた従量課金	プロンプトを簡潔にし出力トークン上限を設定する
専用 AI クラスタ	確保中の GPU 時間に対して課金	本番の安定負荷に使い、不要時は削除する
ファインチューニング	学習ジョブの計算時間（専用クラスタ）	データを整え再学習回数を抑える
埋め込み	ベクトル化したトークン量に応じた従量課金	重複や不要テキストを除いてから埋め込む

セキュリティ

アクセス制御は OCI IAM ポリシーで行い、コンパートメント単位にモデル利用・クラスタ管理の権限を最小化する（例として generative-ai 系リソースへの操作を必要な範囲だけ許可する）
アプリからの認証は、ハードコードした API キーではなくインスタンスプリンシパル / リソースプリンシパルを使い、鍵の配布・ローテーションを不要にする
通信は TLS で保護される。プライベート接続が必要な場合はサービスゲートウェイや専用クラスタのプライベートエンドポイントで OCI バックボーン内から到達させる
ファインチューニングに使う学習データの機微情報に注意し、Object Storage 側の暗号化・アクセス制御も併せて最小化する
入出力にコンテンツモデレーションを適用し、機微情報の漏えいや有害生成を抑える
操作は OCI Audit に記録され、コンプライアンス上の追跡が可能

アンチパターン

資格情報（ユーザー API キー）をアプリやインスタンスにハードコードするのは NG。コンピュート上ではインスタンスプリンシパル、Functions 等ではリソースプリンシパルを使えば鍵の配布・漏えいリスクを排除できます。また、プロンプトに個人情報や秘密情報を不用意に含めないよう、入力のサニタイズも徹底してください。

Well-Architected の観点

運用（Operational Excellence）: モデル ID を設定値にしてモデル世代交代に追従し、トークン消費とエラー率を Monitoring で可視化する。ファインチューニングや評価を再現可能なジョブとして自動化する
セキュリティ（Security）: IAM とプリンシパル認証で最小権限を徹底し、Audit で呼び出しを追跡する。プロンプト入力をサニタイズし、コンテンツモデレーションと学習データ保護で情報漏えいを防ぐ

試験で問われるポイント

頻出

OCI Generative AI は 基盤モデルを API で利用するマネージドサービスで、AWS の Amazon Bedrock に相当する
提供形態は オンデマンド推論（トークン従量） と 専用 AI クラスタ（GPU 時間課金・分離） の 2 系統
ファインチューニングとカスタムモデルのホスティングには専用 AI クラスタが必要
自社データに基づく回答は、まず RAG（埋め込み＋ベクトル検索） を検討し、必要に応じてファインチューニングする
アクセス制御は IAM ポリシー、アプリ認証はインスタンス/リソースプリンシパル（鍵のハードコードは不可）
利用できるモデルはリージョン依存で、モデルには廃止・世代交代がある

観点	OCI Generative AI	Amazon Bedrock
位置づけ	OCI のマネージド生成 AI（基盤モデル API）	AWS のマネージド生成 AI（基盤モデル API）
提供形態	オンデマンド推論 / 専用 AI クラスタ	オンデマンド / プロビジョンドスループット
カスタマイズ	ファインチューニング（専用クラスタ）	ファインチューニング / 継続事前学習
埋め込み	埋め込みモデルを提供	埋め込みモデルを提供
RAG 連携	ベクトル検索（Database 等）と組み合わせ	Knowledge Bases for Bedrock
権限制御	OCI IAM + インスタンス/リソースプリンシパル	IAM ロール/ポリシー
監査	OCI Audit	AWS CloudTrail

ハンズオン / CLI例

# 利用できる基盤モデルの一覧を確認（リージョン依存のため対象リージョンで実行）
oci generative-ai model-collection list-models \
  --compartment-id "$COMPARTMENT_OCID"

# テキスト生成をオンデマンドで呼び出す（モデルIDとプロンプトを指定）
# servingMode の ON_DEMAND は共有基盤での従量課金、温度と最大トークン数で出力を制御
oci generative-ai-inference generate-text generate \
  --compartment-id "$COMPARTMENT_OCID" \
  --serving-mode '{"servingType": "ON_DEMAND", "modelId": "<MODEL_ID>"}' \
  --inference-request '{
    "runtimeType": "COHERE",
    "prompt": "OCI Generative AI を一文で説明して。",
    "maxTokens": 200,
    "temperature": 0.2
  }'

# 専用 AI クラスタを作成（本番の安定スループットやファインチューニング向け）
oci generative-ai dedicated-ai-cluster create \
  --compartment-id "$COMPARTMENT_OCID" \
  --type HOSTING \
  --unit-count 1 \
  --unit-shape "<CLUSTER_UNIT_SHAPE>" \
  --wait-for-state ACTIVE

OCI Generative AI

解決する課題

主要概念と用語

仕様・制限・クォータ

内部の仕組み

設計パターン / ベストプラクティス

運用・監視

コスト

セキュリティ

Well-Architected の観点

試験で問われるポイント

関連サービス・比較

ハンズオン / CLI例

OCI Generative AIを実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点