Cloud Natural Language AIとは？仕組みを図解でわかりやすく解説

解決する課題

問い合わせやレビューの感情（ポジティブ/ネガティブ）を、自前で機械学習モデルを作らずに判定したい
文章中に出てくる人名・組織・地名・商品名などのエンティティを自動で抽出し、メタデータ化したい
大量の文書をカテゴリ（コンテンツ分類）へ自動仕分けし、検索やレコメンドの精度を上げたい
自然言語処理の専門知識やインフラを持たずに、API 呼び出しだけで NLP 機能をアプリへ組み込みたい

主要概念と用語

感情分析 (Sentiment Analysis): テキスト全体や文ごとの感情を、極性を表す score（おおむねマイナスからプラスの範囲） と感情の強さを表す magnitude（0 以上） の2値で返す。中立と「強い賛否が混在」を magnitude で区別できる
エンティティ分析 (Entity Analysis): 文中の固有表現（人名・組織・場所・イベント・商品など）を抽出し、種類（type）や該当箇所、関連する知識ベースのメタデータを返す
エンティティ感情分析 (Entity Sentiment Analysis): エンティティ単位で感情を判定する。「料理は良いがサービスは悪い」のように対象ごとの賛否を捉えられる
構文解析 (Syntax Analysis): 文をトークンに分割し、品詞・係り受け（依存構造）・原形などの文法情報を返す
コンテンツ分類 (Content Classification): テキストを「金融」「スポーツ」などの事前定義カテゴリへ自動分類する
AutoML / カスタムモデル: 既製カテゴリでは足りない場合に、独自ラベルで分類やエンティティ抽出のカスタムモデルを学習できる。ここからは事前学習済み API とは別の機能領域になる

仕様・制限・クォータ

REST / gRPC の API として提供され、テキストを送ると JSON で結果が返る。サーバーやモデルの管理は不要なフルマネージド
入力はプレーンテキストまたは HTML。1 リクエストあたりの文書サイズには上限があり、長文は文分割・分割送信が必要になる
機能ごとに対応言語が異なる。日本語・英語など主要言語は感情/エンティティ/構文に対応するが、機能と言語の組み合わせは公式ドキュメントで要確認
1 リクエストで複数機能をまとめて要求できる annotateText があり、感情・エンティティ・構文を一括取得できる
プロジェクト単位のレート上限（QPS や 1 分あたりリクエスト数）があり、超過は必要に応じて引き上げを申請する。具体的な数値は変動するため断定せず公式値を参照する

内部の仕組み

利用者から見ると、このサービスは Google が事前に学習・運用しているモデルへのフロントエンド API です。リクエストでテキストと「どの解析を行うか」を指定すると、Google 側のモデルが推論し、構造化された結果（score/magnitude、エンティティの type と位置、トークンの依存構造など）を返します。モデルの学習データやアーキテクチャは利用者に公開されず、バージョン更新も Google が管理するため、利用者はインフラもスケーリングも意識しません。

感情分析の score と magnitude は独立した意味を持ちます。score は感情の向き（賛否）、magnitude は感情の量（どれだけ強い感情が含まれるか）です。長文では複数の感情が打ち消し合って score が中立に近づく一方、magnitude は積み上がるため、両者を組み合わせて「淡々と中立」と「賛否が激しく混在」を見分けます。

入力テキストはリクエストの処理に使われますが、既定では Google のモデル改善の学習に利用されない設計です（データガバナンスの詳細は公式のデータ利用ポリシーに従います）。

横にスクロール

複数の解析はannotateTextへまとめ、APIが返す推論値と業務判定を分離します。scoreが中立に近くてもmagnitudeが大きければ強い賛否が混在するため、文単位の再評価へ回し、独自ラベルだけをAutoMLで補います。

設計パターン / ベストプラクティス

既製カテゴリで足りるかをまず判断する。汎用の感情/エンティティ/分類で要件を満たせるなら、事前学習済み API が最短。独自ラベルや業界固有語が必須なら AutoML 等のカスタムモデルへ移行する
長文は文単位・段落単位に分割して送り、必要なら文ごとの感情を集約する。文書サイズ上限とコスト単位（後述）の両面で有利
複数の解析が必要なら個別 API を何度も呼ばず annotateText で一括取得し、往復回数とレイテンシを減らす
バッチ的に大量処理する場合は非同期・キュー化（Pub/Sub や Cloud Tasks 経由）でレート上限内に流量を整える
感情スコアの解釈はしきい値をドメインに合わせて調整する。score だけでなく magnitude も併用して中立判定の精度を上げる

まず事前学習、足りなければカスタム

新規要件では、最初に汎用 API で PoC して精度を測り、満たせない部分だけ AutoML のカスタムモデルへ広げると、開発・運用コストを最小化できます。最初から独自学習に飛びつかないのがコツです。

運用・監視

Cloud Monitoring で API のリクエスト数・エラー率・レイテンシを監視し、レート上限への接近やエラー急増を検知する
Cloud Logging と監査ログでアクセスを記録し、どのプリンシパルが呼び出したかを追跡する
レート超過（リソース枯渇エラー）に備え、クライアント側で指数バックオフによる再試行を実装する
コスト・流量の急変を予算アラートや使用量ダッシュボードで早期把握する

コスト

観点	事前学習済み API	カスタムモデル（AutoML 等）
課金の単位	解析した文字量（テキスト単位）と機能の種類	学習時間と予測リクエスト量
初期コスト	ゼロ（呼ぶだけ）	学習・チューニングのコストが発生
コストを抑える鍵	不要機能を呼ばず必要な解析だけ要求	再学習頻度と予測量の管理
向く場面	汎用の感情/エンティティ/分類で十分なとき	独自ラベルや専門語が必須のとき

課金は概ね解析したテキスト量と、実行した機能（感情・エンティティ・構文・分類など）の種類で決まる。1 リクエストで複数機能を要求するとそれぞれが課金対象になりうる
無料枠の有無や単価は変動するため、見積もりは公式の料金ページで確認する
長文をそのまま送ると課金単位が増えるため、前処理で不要部分を削るのが効く

セキュリティ

呼び出しはサービスアカウントと IAM で認可し、API キーや鍵のハードコードを避ける（AWS の IAM ロール相当）
利用するプリンシパルには Cloud Natural Language の利用に必要な最小権限だけを付与する
機密テキストを扱う場合は、送信前に Cloud DLP（Sensitive Data Protection）で個人情報をマスキング/トークン化することを検討する
ネットワーク境界を固めたい場合は VPC Service Controls でデータ流出経路を制限する
監査ログを有効化し、誰がいつどのテキストを解析したかを追跡可能にする

機密情報を素のまま投げない

氏名・連絡先・カード番号などをそのまま API に送ると、ログや結果に残る恐れがあります。必要な情報以外は事前にマスキングし、扱うデータの分類に応じて DLP や VPC Service Controls を併用してください。

Well-Architected の観点

運用上の優秀性 (Operational Excellence): モデルの構築・学習・スケーリングを Google に任せられるため、運用負荷が小さい。アプリ側は API 呼び出しとエラーハンドリングに集中でき、機能拡張も呼び出し追加だけで済む
信頼性: マネージドかつリージョン/グローバルで提供されるため可用性は高い。クライアントは再試行とタイムアウトを実装して一時的なエラーに備える
コスト最適化: 使った分だけの従量課金で、不要機能を呼ばず長文を前処理することで無駄を抑えられる
セキュリティ: IAM・監査ログ・DLP・VPC Service Controls を組み合わせ、最小権限とデータ保護を担保する

試験で問われるポイント

頻出

「機械学習の専門知識なしでテキストの感情/エンティティを解析したい」→ Cloud Natural Language AI（事前学習済み API） を選ぶ、という対応づけが定番
score（感情の向き）と magnitude（感情の強さ/量）の違い。長文の中立と賛否混在を見分けるのは magnitude
既製カテゴリで足りるなら API、独自ラベルが必要なら AutoML（カスタムモデル） という使い分け
AWS との対応：Cloud Natural Language ≒ Amazon Comprehend。翻訳は Cloud Translation（≒ Amazon Translate）、音声テキスト変換は Speech-to-Text（≒ Amazon Transcribe）と混同しない
認可はサービスアカウントと IAM、機密データは DLP でマスキングするのがセオリー

観点	GCP（Cloud Natural Language AI）	AWS（Amazon Comprehend）
位置づけ	事前学習済みのテキスト解析 API	事前学習済みのテキスト解析 API
感情分析	対応（score と magnitude を返す）	対応（感情ラベルとスコア）
エンティティ抽出	対応（type やメタデータ付き）	対応（エンティティと種別）
カスタムモデル	AutoML 等で独自分類/抽出を学習	Comprehend のカスタム分類/エンティティ
呼び出し認可	サービスアカウント + IAM	IAM ロール
関連サービス	Translation / Speech-to-Text と組合せ	Translate / Transcribe と組合せ

ハンズオン / CLI例

# 1) API を有効化（プロジェクトで一度だけ）
gcloud services enable language.googleapis.com

# 2) 認証用のアクセストークンを取得して REST を直接呼ぶ
ACCESS_TOKEN=$(gcloud auth print-access-token)

# 3) テキストの感情分析（score と magnitude が返る）
cat > request.json <<'EOF'
{
  "document": {
    "type": "PLAIN_TEXT",
    "content": "この製品は使いやすくて気に入っています。ただ価格は少し高いです。"
  },
  "encodingType": "UTF8"
}
EOF

curl -s -X POST \
  -H "Authorization: Bearer ${ACCESS_TOKEN}" \
  -H "Content-Type: application/json" \
  "https://language.googleapis.com/v1/documents:analyzeSentiment" \
  -d @request.json

# 4) エンティティ抽出（同じ document でエンドポイントを切り替えるだけ）
curl -s -X POST \
  -H "Authorization: Bearer ${ACCESS_TOKEN}" \
  -H "Content-Type: application/json" \
  "https://language.googleapis.com/v1/documents:analyzeEntities" \
  -d @request.json

Cloud Natural Language AI

解決する課題

主要概念と用語

仕様・制限・クォータ

内部の仕組み

設計パターン / ベストプラクティス

運用・監視

コスト

セキュリティ

Well-Architected の観点

試験で問われるポイント

関連サービス・比較

ハンズオン / CLI例

Cloud Natural Language AIを実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点