Azure Monitorとは？仕組みを図解でわかりやすく解説

解決する課題

物理的にもサービス的にも分散した Azure 環境で、「今どうなっているか」を一箇所から把握できます。

システムが今どんな状態か（メトリクス）を知りたい
異常を自動で検知して通知/対処したい
ログを一元的に集めて横断検索したい（Log Analytics / KQL）
アプリの分散トレース・依存関係を可視化したい（Application Insights）

主要概念と用語

メトリクス（Azure Monitor Metrics）: 軽量な時系列の数値。プラットフォームメトリクスは既定で自動収集され、約 1 分粒度・93 日保持。時系列 DB に格納される
ログ（Azure Monitor Logs）: イベント/トレース/レコードを Log Analytics ワークスペースに格納し、KQL（Kusto 照会言語）でクエリ・集計する
Application Insights: APM（アプリケーションパフォーマンス監視）。リクエスト・依存関係・例外・分散トレースを収集（AWS の CloudWatch Application Signals / X-Ray 相当）
Data Collection Rule（DCR）/ Azure Monitor Agent（AMA）: VM の OS 内部の指標（メモリ・ディスク等）やログ、syslog を集める新世代エージェントと収集設定。旧 Log Analytics Agent（MMA）は 2024 年に廃止
アラートルール（メトリクス/ログ/アクティビティログ）: 条件成立でアラートを発火。状態は監視可能（新規 / 確認済み / 終了）
アクショングループ: アラート時の通知/アクションの束（メール・SMS・プッシュ・Webhook・Logic Apps・関数・自動化 Runbook）
診断設定（Diagnostic Settings）: 各リソースのリソースログやメトリクスを、Log Analytics / ストレージ / Event Hubs に送る設定
ブック（Workbooks）/ ダッシュボード: 可視化。Managed Grafana 連携も可能

仕様・制限・クォータ

プラットフォームメトリクスは既定で約 1 分粒度・93 日保持。より長期や横断分析が必要なら、診断設定で Log Analytics やストレージへ送る
カスタムメトリクスは任意の粒度で送信可（保持は同じく 93 日）
ログ（Log Analytics）の保持は既定 30 日（Application Insights は 90 日）、テーブル単位で最大 730 日まで対話的保持、さらにアーカイブで最大 12 年まで延長可
テーブルプランは Analytics / Basic / Auxiliary を選べ、取り込みコストとクエリ可能性が変わる
メトリクスアラートの評価頻度は最短 1 分。ログアラートは最短 1 分（コストは頻度に比例）
ワークスペースはリージョンリソース。複数ワークスペースをまたぐクエリは可能だが設計で集約方針を決める

内部の仕組み

各 Azure リソースは、プラットフォームメトリクスを Azure Monitor の時系列メトリクスストアへ自動送信します。詳細なリソースログは既定では収集されず、リソースごとに診断設定を有効化して初めて Log Analytics などへ流れます。VM の OS 内部の指標（メモリ・ディスク空き容量など）やゲストログは、Azure Monitor Agent（AMA）＋ Data Collection Rule（DCR）を構成して収集します。

アラートルールは一定の評価期間でメトリクス/ログを評価し、条件成立でアラートを生成、紐づくアクショングループを起動します。

横にスクロール

プラットフォームメトリクスは既定で収集されますが、リソースログは診断設定、ゲストOS内部はAzure Monitor AgentとDCRが必要です。保存した信号を分析し、アラートルール、アクショングループを通して通知や自動対応へつなぎます。

メモリ監視のひっかけ

「VM のメモリ使用率を監視」→ プラットフォームメトリクスでは取れない（ホストからゲスト内部は見えない）。 Azure Monitor Agent + DCR でゲストメトリクスとして収集が必要、が頻出ポイント。CloudWatch Agent と同じ構図です。

設計パターン / ベストプラクティス

集中ログワークスペース: サブスクリプション横断で 1〜数個の Log Analytics ワークスペースに集約し、RBAC とコストを統制
アラート → アクショングループ → 通知（メール/Teams/PagerDuty Webhook）や自動対応（Logic Apps・Automation Runbook・Functions）
オートスケールの起点に Azure Monitor メトリクスを使い、VMSS / App Service を負荷に応じて増減
動的しきい値（Dynamic Thresholds）や複数リソースへの1 ルール適用で、誤検知とルール乱立を抑制
アプリ層は Application Insights で分散トレース、インフラ層はメトリクス＋ログと役割分担

運用・監視

監視データが来ない → 診断設定が未構成、または AMA/DCR の割り当て・マネージド ID 権限を確認
アラートが鳴らない → 評価期間・データ欠損、アクショングループの宛先/抑制（Alert Processing Rule）を確認
コスト増 → ログ取り込み量（Verbose ログの送りすぎ）、保持期間、頻度の高いログアラートを点検
ノイズ過多 → 動的しきい値・アラートのグループ化・Alert Processing Rule で抑制

コスト

課金は主にログ取り込み量（GB）・メトリクス・アラートルール数・通知数で発生します。取り込み量と保持を抑えるのが効きます。

課金要素	主な単位	コスト最適化のポイント
ログ取り込み（Log Analytics）	取り込み GB 単位	不要な Verbose ログを止め、Basic/Auxiliary プランやコミット階層を活用
ログ保持/アーカイブ	GB×月（既定無料分を超過後）	テーブル単位で保持を最適化、長期はアーカイブへ
メトリクス	プラットフォームは無料 / カスタムは時系列・クエリ課金	カスタムメトリクスの粒度・件数を絞る
アラート/通知	ルール数・通知件数（メール以外）	1 ルール複数リソース・動的しきい値で本数を削減

セキュリティ

ログワークスペースへのアクセスは Microsoft Entra ID + Azure RBAC（リソースコンテキスト/テーブルレベル RBAC）で制御
データは保存時に暗号化。要件に応じて Customer-Managed Key（CMK）を Key Vault で管理
エージェント/収集にはマネージド ID を使い、資格情報のハードコードを避ける
監査は Azure Monitor アクティビティログ（コントロールプレーン操作の証跡）と役割分担。Microsoft Sentinel（SIEM）連携で脅威検知へ拡張

アンチパターン

何でもかんでも Verbose ログを全リソースから無制限に取り込むのは NG。Log Analytics の取り込み課金が膨張し、ノイズで重要アラートが埋もれます。 必要なテーブル/レベルに絞り、Basic/Auxiliary プランや保持の最適化でコストとシグナル比を保ちましょう。

観点	Azure Monitor	Amazon CloudWatch
位置づけ	Azure の監視/可観測性の中核	AWS の監視/可観測性の中核
メトリクス	Azure Monitor Metrics	CloudWatch Metrics
ログ収集/分析	Log Analytics ワークスペース + KQL	CloudWatch Logs + Logs Insights
OS内部の収集	Azure Monitor Agent + DCR	CloudWatch Agent
APM/分散トレース	Application Insights	Application Signals / X-Ray
通知/自動アクション	アクショングループ（Logic Apps/Runbook）	SNS / Auto Scaling / EventBridge
可視化	ブック / ダッシュボード / Managed Grafana	ダッシュボード / Managed Grafana
操作の監査	アクティビティログ	CloudTrail

ハンズオン / CLI例

# Log Analytics ワークスペースを作成
az monitor log-analytics workspace create \
  --resource-group demo-rg \
  --workspace-name demo-law \
  --location japaneast

# VM のリソース ログ/メトリクスを Log Analytics へ送る診断設定を作成
az monitor diagnostic-settings create \
  --name vm-to-law \
  --resource "/subscriptions/<sub-id>/resourceGroups/demo-rg/providers/Microsoft.Compute/virtualMachines/demo-vm" \
  --workspace demo-law \
  --metrics '[{"category":"AllMetrics","enabled":true}]'

# CPU 使用率の平均が 80% を超えたらアクション グループへ通知するメトリクス アラート
az monitor metrics alert create \
  --name high-cpu \
  --resource-group demo-rg \
  --scopes "/subscriptions/<sub-id>/resourceGroups/demo-rg/providers/Microsoft.Compute/virtualMachines/demo-vm" \
  --condition "avg Percentage CPU > 80" \
  --window-size 5m --evaluation-frequency 1m \
  --action "/subscriptions/<sub-id>/resourceGroups/demo-rg/providers/microsoft.insights/actionGroups/ops-ag"

# Log Analytics に対して KQL でエラー ログを集計
az monitor log-analytics query \
  --workspace <workspace-id> \
  --analytics-query "AppTraces | where SeverityLevel >= 3 | summarize count() by bin(TimeGenerated, 1h)"

Azure Monitor

解決する課題

主要概念と用語

仕様・制限・クォータ

内部の仕組み

設計パターン / ベストプラクティス

運用・監視

コスト

セキュリティ

関連サービス・比較（AWS との対応）

ハンズオン / CLI例

Azure Monitorを実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点

他クラウドの同等サービス