Vision AIとは？仕組みを図解でわかりやすく解説

Vision AI（Cloud Vision API）は、Google が事前に学習させた画像認識モデルを API として提供するマネージドサービスです。自分でモデルを訓練しなくても、画像を送るだけで物体やテキストの検出結果が返ってきます。

解決する課題

画像から何が写っているかを知りたいが、機械学習モデルを自前で訓練・運用する余力がない
大量の画像から文字（OCR）を抜き出して検索可能にしたい
アップロードされた画像に不適切なコンテンツが含まれていないかを自動でフィルタしたい
写真にラベル（タグ）付けをして整理・検索の精度を上げたい

主要概念と用語

ラベル検出: 画像内のおもな物体・概念にタグを付け、信頼度スコアを返す機能
テキスト検出 / 文書テキスト検出（OCR）: 画像内の文字を読み取る。後者は文書・帳票向けで段落構造も扱う
オブジェクトのローカリゼーション: 物体の位置を矩形（バウンディングボックス）で返す
顔検出: 顔の位置や表情の傾向を返す（個人を特定する顔認証とは異なる）
セーフサーチ: アダルト・暴力など望ましくない内容の度合いを推定する
信頼度スコア: 検出結果がどれだけ確からしいかを示す0から1の値
AutoML / Vertex AI: 独自カテゴリの分類が必要なときにカスタムモデルを学習させる仕組み

仕様・制限・クォータ

画像は Cloud Storage 上のオブジェクト指定か、リクエストにBase64で直接埋め込む形で渡す
1リクエストの画像サイズや解像度には上限があり、極端に大きい画像は事前に縮小が必要
API 呼び出しにはプロジェクト単位のレート上限（クォータ）があり、必要に応じて引き上げ申請する
多数の画像をまとめて処理する非同期バッチにも対応する
具体的なサイズ・件数・レートの数値は変動するため、利用前に公式ドキュメントで最新値を確認する

内部の仕組み

利用者から見ると Vision AI はステートレスな REST / gRPC エンドポイントです。画像を送ると、Google 側で事前学習済みのディープラーニングモデルが推論を実行し、検出結果を JSON で返します。モデルの訓練・更新・スケーリングはすべて Google が管理するため、利用者はインフラを意識しません。1リクエストで複数の機能（ラベル＋OCR＋セーフサーチなど）をまとめて指定でき、内部では機能ごとにモデルが呼ばれて結果が統合されます。

呼び出しは機能単位

1回のリクエストで必要な検出タイプだけを指定すると、無駄な解析を避けてコストとレイテンシを抑えられる。全機能を常に有効化しない。

横にスクロール

1画像で必要な検出機能だけをまとめて指定し、モデル別の結果を一度で受け取ります。大量画像は非同期バッチへ分け、APIの信頼度をそのまま確定値にせず、用途別しきい値と人手確認を後段に設けます。

設計パターン / ベストプラクティス

イベント駆動連携: Cloud Storage への画像アップロードをトリガーに Cloud Functions / Cloud Run を起動し、Vision API を呼ぶ
大きい画像は事前に縮小してから送り、転送量と処理時間を削減する
信頼度スコアにしきい値を設け、低スコアの結果は採用しないか人手レビューに回す
同じ画像を何度も解析しないよう、結果をキャッシュ・永続化する
大量処理は同期APIではなく非同期バッチを使い、レート上限超過を避ける

運用・監視

API の呼び出し回数・エラー率・レイテンシは Cloud Monitoring で可視化する
監査ログ・アクセスログは Cloud Logging に集約し、誰がどの画像を解析したか追跡する
レート上限（クォータ）超過のエラーを監視し、リトライは指数バックオフで実装する
コスト超過を早期に検知するため予算アラートを設定する

コスト

課金は基本的に解析した画像数 × 有効化した機能種別で決まる従量制
1枚の画像で複数の機能を指定すると、機能ごとに加算される点に注意する
一定量までの無料枠が用意される場合があるが、具体的な単価・無料枠は変動するため公式の料金ページで確認する
不要な機能を外す・結果を再利用する・バッチでまとめるとコストを抑えやすい

セキュリティ

アクセスは IAM で制御し、サービスアカウントには最小権限のロールだけを付与する
画像を保存する Cloud Storage バケットは公開せず、暗号化（保存時・転送時）を有効にする
顔検出は顔認証（個人特定）ではない点を理解し、用途によってはプライバシー規制への配慮が必要
解析対象の画像に個人情報が含まれる場合は、保持期間やアクセス範囲をポリシーで定める

Well-Architected の観点

運用上の優秀性: モデルの訓練・運用が不要なマネージドAPIで、運用負荷を最小化できる
コスト最適化: 従量課金のため、必要な機能だけを呼び出せば無駄が出にくい
信頼性: スケーリングを Google が担うため、スパイクにも追従しやすい

試験で問われるポイント

頻出

画像の物体・テキスト・顔の検出は事前学習済みの Vision APIで実現する
独自カテゴリの分類が必要なら AutoML / Vertex AI でカスタムモデルを作る
動画の解析は別サービス（Video Intelligence API）の役割で、静止画は Vision AI
AWS での相当サービスは Amazon Rekognition

観点	Vision AI (GCP)	Rekognition (AWS)
提供形態	学習済みの画像解析API	学習済みの画像・動画解析API
おもな機能	ラベル・OCR・顔・セーフサーチ	ラベル・OCR・顔・モデレーション
カスタム分類	AutoML / Vertex AI で拡張	Custom Labels で拡張
課金	解析画像数と機能種別の従量制	解析画像数の従量制

ハンズオン / CLI例

# 画像内のテキストを検出する（OCR）
gcloud ml vision detect-text gs://my-bucket/receipt.jpg

# 画像にラベル（タグ）を付ける
gcloud ml vision detect-labels gs://my-bucket/photo.jpg

# 不適切コンテンツの度合いを判定する（セーフサーチ）
gcloud ml vision detect-safe-search gs://my-bucket/upload.jpg

Vision AI

解決する課題

主要概念と用語

仕様・制限・クォータ

内部の仕組み

設計パターン / ベストプラクティス

運用・監視

コスト

セキュリティ

Well-Architected の観点

試験で問われるポイント

関連サービス・比較

ハンズオン / CLI例

Vision AIを実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点