Azure AI Visionとは？仕組みを図解でわかりやすく解説

Azure AI Vision は、画像や映像を解析して人間が見て分かる情報（物体・シーン・テキスト・顔など）を機械可読なデータに変換するマネージドサービスです。学習済みモデルが API として提供されるため、モデルの学習やインフラ運用なしで視覚解析を組み込めます。AWS では Amazon Rekognition がほぼ同じ役割を担います。

解決する課題

画像に何が写っているかを自動で判別・タグ付けしたい（手作業の分類をなくしたい）
大量の書類や看板の写真から文字を抽出（OCR）してデジタル化したい
アップロードされた画像に不適切なコンテンツが含まれないか自動チェックしたい
自前で機械学習モデルを学習・運用する負担なしに視覚解析を導入したい

主要概念と用語

画像分析（Image Analysis）: 1枚の画像から物体・タグ・説明文・色などを抽出する中核機能
OCR（光学文字認識 / Read）: 印刷文字・手書き文字を読み取りテキスト化する機能
物体検出: 画像内の物体の位置を矩形（バウンディングボックス）付きで返す
空間分析: カメラ映像から人の動きや人数などを解析する機能
顔検出: 画像中の顔の位置や属性を検出する（個人の識別利用には責任あるAIの審査が伴う）
カスタムモデル: 自社データで追加学習し、独自の分類・物体検出を行う仕組み
Azure AI services リソース: API のエンドポイントとキーを提供するアカウント単位の入れ物

仕様・制限・クォータ

入力は画像（一般的な形式）または URL で渡す方式が基本で、ファイルサイズや解像度に上限がある
API には1秒あたりのリクエスト数（レート制限）があり、超過すると一時的に拒否される
機能や精度はリージョンによって提供状況が異なることがある
顔関連の一部機能は責任あるAIの利用申請・制限の対象になる
具体的な上限値・対応形式・レート上限は変動するため、最新の公式ドキュメントで確認すること

制限値は前提にしない

サイズ上限やレート制限は更新されるため、設計時に固定値を埋め込まず、超過時のリトライ（指数バックオフ）やバッチ分割を前提に組むこと。

内部の仕組み

利用者は画像データを HTTPS の REST API（または SDK）でサービスに送信し、サービス側の学習済みディープラーニングモデルが推論した結果を JSON で受け取ります。モデルの学習・GPU・スケーリングはすべてマネージド側が担うため、利用者はモデルの中身を意識せずに済みます。映像はフレーム単位の画像として、あるいは空間分析でストリームとして扱われます。カスタムモデルでは、利用者がラベル付き画像をアップロードして追加学習させ、その結果を専用エンドポイントとして公開できます。

横にスクロール

画像をBlobへ一度受け、サイズと向きを整えて必要な解析だけを呼びます。画像ハッシュをキーに結果を保存し、再実行と重複課金を防ぎます。

設計パターン / ベストプラクティス

非同期＋イベント駆動: Blob Storage への画像アップロードを起点に Functions で解析を呼ぶ（疎結合）
結果のキャッシュ・保存: 同じ画像を何度も解析しないよう、解析結果を DB に保存して再利用
必要な機能だけ要求: タグ・OCR・物体検出など、要る項目のみ指定してレイテンシとコストを抑える
前処理: 過大な画像はリサイズしてから送り、サイズ上限とコストを最適化
失敗時リトライ: レート制限や一時障害に備え指数バックオフでリトライ

既製モデルで足りるか先に検証

まず学習済みの画像分析・OCR で要件を満たせるか確認し、ドメイン固有の分類が必要なときだけカスタムモデルに進むと、運用コストを最小化できる。

運用・監視

呼び出し回数・レイテンシ・エラー率は Azure Monitor / メトリクスで監視する
スロットリング（レート制限）の発生状況を監視し、必要に応じて上限引き上げやリクエスト平準化を行う
診断ログを Log Analytics に集約し、異常な失敗率の検知やアラートに使う
キーのローテーション運用と、エンドポイント・キーの構成管理を整備する

コスト

課金は基本的に解析したトランザクション数（呼び出し回数）に応じた従量制で、機能ごとに単価が異なる
無料利用枠が用意される場合があるが、本番は従量で増えるため呼び出し回数の最適化が効く
同一画像の重複解析を避ける、必要な機能だけ呼ぶ、画像を前処理で軽くする、が主なコスト削減策
具体的な単価は変動するため公式の料金ページで確認すること

セキュリティ

認証はキーまたは Microsoft Entra ID（マネージド ID）で行い、キーのハードコードは避ける
キーは Azure Key Vault に保管し、アプリにはマネージド ID 経由で権限を渡す
通信は HTTPS（TLS）で暗号化され、必要に応じて Private Endpoint で閉域化できる
顔・個人を扱う場合はプライバシー規制と責任あるAIの方針を順守し、用途を限定する

Well-Architected の観点

運用上の優秀性: 学習済みモデルをマネージドで利用でき、モデル運用の負担がない。IaC でリソースを再現可能に
信頼性: レート制限・一時障害に備えたリトライと結果キャッシュで安定化
コスト最適化: 従量課金のため、呼び出し回数と画像サイズの最適化が直接効く
セキュリティ: マネージド ID と Key Vault、閉域化で資格情報と通信を保護

試験で問われるポイント

頻出

画像・映像の解析（物体検出・タグ・OCR・顔検出）のマネージドな視覚AIであること
モデルを自前で学習・運用せず API 呼び出しで使える点が選定理由
ドメイン固有の分類が要るときはカスタムモデルを使う
認証はキーのハードコードを避け、マネージド ID と Key Vaultを使う
AWS の相当サービスは Amazon Rekognition

観点	Azure AI Vision	Amazon Rekognition
役割	画像・映像の解析(視覚AI)	画像・映像の解析(視覚AI)
提供形態	学習済みモデルをAPIで提供	学習済みモデルをAPIで提供
独自学習	カスタムモデルで追加学習	カスタムラベルで追加学習
文字認識	OCR(Read)に対応	テキスト検出に対応
認証基盤	Microsoft Entra ID / キー	AWS IAM

ハンズオン / CLI例

# Azure AI services(Computer Vision)リソースを作成
az cognitiveservices account create \
  --name my-vision \
  --resource-group my-rg \
  --kind ComputerVision \
  --sku S1 \
  --location japaneast \
  --yes

# エンドポイントとキーを取得（アプリの設定に利用）
az cognitiveservices account show \
  --name my-vision --resource-group my-rg \
  --query properties.endpoint -o tsv

az cognitiveservices account keys list \
  --name my-vision --resource-group my-rg \
  --query key1 -o tsv

Azure AI Vision

解決する課題

主要概念と用語

仕様・制限・クォータ

内部の仕組み

設計パターン / ベストプラクティス

運用・監視

コスト

セキュリティ

Well-Architected の観点

試験で問われるポイント

関連サービス・比較

ハンズオン / CLI例

Azure AI Visionを実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点