Cloud Service
Vertex AI
従来型 ML と生成 AI を一つに統合した Google Cloud のマネージド AI 基盤。AWS の SageMaker と Bedrock を合わせたものに相当する。
- 1.データ準備から学習、デプロイ、運用までを一気通貫で扱える ML プラットフォーム。
- 2.Gemini など基盤モデルを呼び出す生成 AI 機能も同じ基盤に統合されている。
- 3.AWS では SageMaker(ML)と Bedrock(生成 AI)に相当する役割を一手に担う。
解決する課題
- 機械学習のデータ準備・学習・評価・デプロイ・監視が個別ツールに分散し、運用が煩雑になる
- 学習済みモデルを本番でスケーラブルに配信し、低レイテンシで予測を返したい
- コードを書かずに、または最小限の労力で高品質なモデルを素早く作りたい
- 生成 AI(Gemini などの基盤モデル)を安全に業務へ組み込み、検索拡張や微調整で自社データに適合させたい
- 実験・モデル・特徴量・パイプラインを一元管理してチームで再現性を保ちたい
主要概念と用語
- Vertex AI: 従来型 ML(予測モデルの学習・配信)と生成 AI(基盤モデルの呼び出し・チューニング)を統合したマネージド AI 基盤。AWS の SageMaker と Bedrock の役割を併せ持つ
- Model Garden: Google 製・サードパーティ製・オープンソースの基盤モデルを探して試せるカタログ。AWS Bedrock のモデル選択画面に近い
- Gemini API: Vertex AI 上でマルチモーダルの生成 AI モデルを呼び出すための API。テキスト・画像・音声などを扱える
- AutoML: 表・画像・テキストなどに対し、コードを書かずにモデルを自動学習する仕組み
- カスタム学習 (Custom Training): 自前のコンテナやスクリプトで任意のフレームワーク(TensorFlow・PyTorch など)を使って学習する方式
- エンドポイント (Endpoint): 学習済みモデルをデプロイしてオンライン予測(リアルタイム推論)を提供する宛先。常時稼働する配信先
- バッチ予測 (Batch Prediction): 大量データに対し、エンドポイント常駐なしでまとめて推論を実行する方式
- Feature Store: 特徴量を一元管理し、学習時と推論時で一貫した値を供給する仕組み
- Pipelines: 前処理・学習・評価・デプロイの各ステップを DAG として定義し、自動実行・再現する ML ワークフロー基盤
- Model Registry: モデルとそのバージョンを登録・管理する台帳
- Grounding(グラウンディング): 生成結果を Google 検索や自社データに根拠付けしてハルシネーションを抑える仕組み
仕様・制限・クォータ
- リージョン単位で動作するサービスが多く、データの所在地やモデルの提供リージョンを設計時に確認する必要がある
- オンライン予測のエンドポイントはマシンタイプとレプリカ数を指定して配信する。最小・最大レプリカ数によるオートスケールを設定できる
- 生成 AI モデルには入力・出力のトークン上限や、プロジェクト単位のリクエスト/分・トークン/分といったレート制限がある。これらは定性的に「上限がある」と捉え、最新値はコンソールのクォータ画面で確認する
- カスタム学習では使用できる**アクセラレータ(GPU・TPU)**の種類と数にクォータがあり、増枠申請が必要になることがある
- バッチ予測・学習ジョブには同時実行数や入力サイズの制約がある
- 具体的な数値・上限・対応モデルは更新が頻繁なため、断定せず公式ドキュメントとクォータ画面で都度確認する
基盤モデルは提供リージョンが限られることがあり、利用したいモデルが目的のリージョンに無い場合があります。データ所在地の要件と、使いたいモデルの提供地域は設計の初期段階で突き合わせてください。
内部の仕組み
Vertex AI は、共通のメタデータ層(実験・モデル・特徴量・パイプラインの記録)の上に、学習・配信・生成 AI の各機能が乗る構成です。学習では、AutoML またはカスタムコンテナのジョブがマネージドな計算クラスタ上で実行され、生成物が Model Registry に登録されます。配信では、登録モデルをエンドポイントにデプロイすると、背後で割り当てられたマシン群がリクエストを受け、設定に応じてレプリカがオートスケールします。常時稼働が不要な大量推論はバッチ予測ジョブが入力ストレージを読み、結果を出力先へ書き戻します。
生成 AI では、Gemini などの基盤モデルが Google 側のマネージド基盤でホストされ、利用者は API 経由で呼び出します。自社データへの適合は、**プロンプト設計・グラウンディング・チューニング(微調整)**といった段階で行います。Pipelines はこれら一連のステップをコンテナ化したコンポーネントの DAG として実行し、各実行の入出力とアーティファクトをメタデータとして残すため、再現と監査が可能になります。
設計パターン / ベストプラクティス
- 用途で学習方式を選ぶ: 素早く標準的なモデルが欲しいなら AutoML、独自フレームワークや細かな制御が要るならカスタム学習
- 学習と推論で特徴量を一致させる: オンライン/オフラインの差異(トレーニング・サービングスキュー)を避けるため Feature Store で特徴量を共有する
- 常時 vs まとめて: 低レイテンシのリアルタイム応答はエンドポイント、夜間の大量処理はバッチ予測でコストを抑える
- 生成 AI は根拠付けを前提に: 業務利用では Grounding や検索拡張(自社データ参照)でハルシネーションを抑え、出力を検証可能にする
- ワークフローを Pipelines で固める: 手作業を排し、前処理から評価・デプロイまでを再現可能なパイプラインにする
- 段階的にデプロイ: 新バージョンはトラフィック分割で一部に流し、品質を見てから全面切り替えする
運用・監視
- Cloud Monitoring / Cloud Logging で推論リクエスト数・レイテンシ・エラー率を監視し、エンドポイントの健全性を把握する
- Model Monitoring で入力データの分布のずれ(データドリフト)や予測ドリフトを検知し、再学習の判断材料にする
- エンドポイントのレプリカ数とマシンタイプを負荷に合わせて調整し、レイテンシとコストのバランスを取る
- 学習・パイプラインの実行履歴とアーティファクトをメタデータとして残し、障害時の原因追跡と再現を容易にする
- 生成 AI ではトークン消費量とレート制限の到達状況を監視し、必要に応じてクォータ増枠やリトライ設計を行う
コスト
| 項目 | 課金の考え方 | コストを抑える勘所 |
|---|---|---|
| カスタム学習 | 学習ジョブが使う計算資源(vCPU・メモリ・GPU/TPU)の時間 | アクセラレータ選定と早期停止で無駄を削る |
| オンライン予測 | デプロイ中のエンドポイントのマシン時間(レプリカ数に比例) | 最小レプリカと自動スケールで遊休を減らす |
| バッチ予測 | ジョブ実行中の計算資源時間のみ | 常時稼働が不要なら常時配信より安い |
| 生成 AI | 入力・出力のトークン量(モデルにより単価が異なる) | プロンプト短縮・モデル選択・キャッシュ活用 |
オンライン予測のエンドポイントはデプロイしている間ずっと課金されます。検証で作ったまま放置すると無駄なコストになるため、不要になったらアンデプロイするか、間欠的な用途ならバッチ予測への切り替えを検討してください。
セキュリティ
- IAM でデータ・モデル・エンドポイント・パイプラインへのアクセスを最小権限に分離する(AWS の IAM ロール相当)
- 学習・推論のワークロードにはサービスアカウントを割り当て、認証情報のハードコードを避ける
- 保存データは Google 管理鍵で既定暗号化され、要件に応じて CMEK(顧客管理鍵、Cloud KMS) を適用できる
- VPC Service Controls でデータ境界を作り、エンドポイントや学習ジョブからの外部流出を防ぐ。Private Service Connect / 限定公開アクセスで内部からのみ到達させる構成も取れる
- 生成 AI ではプロンプトインジェクションや機微情報の流出に備え、入力検証・出力フィルタ・データの取り扱いポリシーを設計に組み込む
サービスアカウントキー(JSON)をノートブックや設定ファイルに埋め込むのは NG。Google Cloud 内ではワークロードに紐づくサービスアカウントを直接使えば、長期鍵の管理・漏洩リスクを排除できます。鍵のダウンロード配布は最終手段です。
Well-Architected の観点
- パフォーマンス効率: 用途に応じて AutoML とカスタム学習、オンラインとバッチを使い分け、GPU/TPU やレプリカ数を適正化する。エンドポイントのオートスケールで負荷変動に追従する
- 運用上の優秀性: Pipelines と Model Registry、メタデータで ML ワークフローを自動化・再現可能にし、Model Monitoring でドリフトを検知して継続的に改善する(MLOps)
- これらは Google Cloud の Well-Architected Framework が重視する性能効率と運用の柱に直結する。データやモデルの一元管理は再現性と監査性を高め、運用負荷を下げる
試験で問われるポイント
- Vertex AI は従来型 ML と生成 AI を統合した基盤であること。AWS では SageMaker(ML 全般)と Bedrock(生成 AI)に相当する役割を一手に担う
- AutoML(ノーコードで自動学習) と カスタム学習(自前コンテナ・任意フレームワーク) の使い分け
- オンライン予測(エンドポイントで低レイテンシ・常時課金) と バッチ予測(大量データをまとめて・常時稼働不要) の選択
- Feature Store がトレーニング・サービングスキューを防ぐこと
- Model Monitoring がデータドリフト/予測ドリフトを検知すること
- 生成 AI の**Grounding(根拠付け)**でハルシネーションを抑えること、Model Garden からモデルを選べること
- セキュリティは IAM・CMEK・VPC Service Controls が定番の論点
関連サービス・比較
| 観点 | Google Cloud(Vertex AI) | AWS(相当サービス) |
|---|---|---|
| ML プラットフォーム全般 | Vertex AI(学習・配信・MLOps) | SageMaker |
| 生成 AI / 基盤モデル | Vertex AI の生成 AI 機能・Model Garden | Bedrock |
| 代表的な基盤モデル | Gemini ほか各種 | Claude ほか各種 |
| ノーコード自動学習 | AutoML | SageMaker Autopilot / Canvas |
| 特徴量管理 | Feature Store | SageMaker Feature Store |
| ML ワークフロー | Vertex AI Pipelines | SageMaker Pipelines |
| モデル監視 | Model Monitoring | SageMaker Model Monitor |
ハンズオン / CLI例
# 1) 利用可能なリージョンを指定(例: 東京)して設定
gcloud config set ai/region asia-northeast1
# 2) モデルを Model Registry にアップロード(事前学習済みコンテナの例)
gcloud ai models upload \
--display-name=my-model \
--container-image-uri=asia-docker.pkg.dev/vertex-ai/prediction/sklearn-cpu.1-3:latest \
--artifact-uri=gs://MY_BUCKET/model/
# 3) オンライン予測用のエンドポイントを作成
gcloud ai endpoints create --display-name=my-endpoint
# 4) モデルをエンドポイントにデプロイ(オートスケール設定つき)
gcloud ai endpoints deploy-model ENDPOINT_ID \
--model=MODEL_ID \
--display-name=my-deploy \
--machine-type=n1-standard-2 \
--min-replica-count=1 \
--max-replica-count=3
# 5) エンドポイント一覧で確認
gcloud ai endpoints list --region=asia-northeast1
Google Cloud Service
Vertex AIを実務で読む
TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。
解決すること
AI / 機械学習
比較で見る軸
クラウド: Google Cloud / カテゴリ: AI / 機械学習 / 難易度: intermediate
導入後に効く点
Gemini など基盤モデルを呼び出す生成 AI 機能も同じ基盤に統合されている。
先に潰すリスク
サービス単体ではなく、権限、ネットワーク、監視、課金、バックアップを含めて設計する必要がある。
- クラウド
- Google Cloud
- カテゴリ
- AI / 機械学習
- 難易度
- intermediate
- 関連資格
- —
- 設計柱
- performance / operational
判断チェックリスト
- 自社の用途が「AI / 機械学習 / performance」に近いか確認する。
- 強みである「データ準備から学習、デプロイ、運用までを一気通貫で扱える ML プラットフォーム。」が本当に評価軸になるか確認する。
- 注意点の「サービス単体ではなく、権限、ネットワーク、監視、課金、バックアップを含めて設計する必要がある。」を運用で吸収できるか確認する。
- 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
- 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
- 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。