TL

Cloud Service

Amazon CloudWatch

メトリクス・ログ・アラーム・ダッシュボードでAWSを可観測にする監視の中核。自動アクションの起点にもなる。

基礎SAA-C03SOA-C02DVA-C02SAP-C02運用上の優秀性信頼性パフォーマンス効率
最終更新: 2026-05-31公式ドキュメント ↗
TL;DR要点だけ先に
  • 1.メトリクス・ログ・アラームでAWSを可観測にする監視の中核。
  • 2.しきい値超えで通知やAuto Scalingなど自動アクションを起動。
  • 3.EC2のメモリ/ディスクは標準外でCloudWatch Agentが必要。
Amazon CloudWatch のアーキテクチャ図
Amazon CloudWatch の構成イメージ

解決する課題

  • システムが今どんな状態かを知りたい
  • 異常を自動で検知して通知/対処したい
  • ログを一元的に集めて調べたい

主要概念と用語

  • メトリクス: 時系列の数値(標準メトリクス / カスタムメトリクス)
  • 名前空間 / ディメンション: メトリクスの分類・絞り込み
  • アラーム: しきい値超えで ALARM 状態 → アクション(SNS/Auto Scaling)
  • ログ(ロググループ/ストリーム)/ Logs Insights: 収集とクエリ分析
  • ダッシュボード: 可視化
  • CloudWatch Agent: OS内部の指標(メモリ等)やログを送る

仕様・制限・クォータ

  • 標準は5分間隔、詳細モニタリングで1分間隔
  • カスタムメトリクスは任意の粒度で送信可
  • ログは保持期間を設定(無期限も可)

内部の仕組み

各サービスがメトリクスを自動送信し、CloudWatchが時系列で保持します。アラームは一定期間メトリクスを評価し、OK / ALARM / INSUFFICIENT_DATA の状態を持ちます。EC2の標準メトリクスにメモリ/ディスク使用率は含まれません(ハイパーバイザから見えないため)。これらは CloudWatch Agent を入れてカスタムメトリクスとして送ります。

メモリ監視のひっかけ

「EC2のメモリ使用率を監視」→ 標準では取れないCloudWatch Agent が必要、が頻出ポイント。

設計パターン / ベストプラクティス

  • アラーム → SNS通知 / Auto Scaling で自動対応
  • ログを集約し Logs Insights で横断分析
  • 重要指標をダッシュボード
  • 異常検知(Anomaly Detection)や複合アラームで誤検知を低減

運用・監視・トラブルシュート

  • 監視対象の取りこぼし → Agent設定 / IAM権限を確認
  • アラームが鳴らない → 評価期間・データ欠損(INSUFFICIENT_DATA)を確認
  • コスト増 → カスタムメトリクス/ログ保持/高解像度の使い過ぎを点検

コスト

  • メトリクス数・ログ取り込み量・ダッシュボード・アラーム数で課金
  • 不要な高解像度・長期ログ保持を抑えると効く

セキュリティ

  • ログの暗号化(KMS)とアクセス制御(IAM)
  • 監査は CloudTrail、構成変更は AWS Config と役割分担

Well-Architected の観点

  • 運用上の優秀性: 観測性と自動化の中核
  • 信頼性: 異常検知→自動復旧(Auto Scaling/復旧アクション)
  • パフォーマンス効率: ボトルネックの可視化

試験で問われるポイント

頻出
  • メモリ/ディスクは標準外 → CloudWatch Agent
  • 監視=CloudWatch / 監査=CloudTrail / 構成=Config の切り分け
  • アラーム→SNS / Auto Scaling で自動対応
📝 CloudWatch ミニ確認テスト1 問 / 全 3

EC2インスタンスのメモリ使用率を監視したい。正しいのは?

関連サービス・比較

サービス役割問いの形
CloudWatch性能/ログ監視・アラーム今どうなっている?
CloudTrailAPI操作の監査証跡誰が何をした?
AWS Config構成変更の追跡/準拠どう変わった?準拠してる?

ハンズオン / CLI例

# CPU使用率80%超で通知するアラームを作成
aws cloudwatch put-metric-alarm \
  --alarm-name high-cpu \
  --namespace AWS/EC2 --metric-name CPUUtilization \
  --dimensions Name=InstanceId,Value=i-0123456789abcdef0 \
  --statistic Average --period 300 --evaluation-periods 2 \
  --threshold 80 --comparison-operator GreaterThanThreshold \
  --alarm-actions arn:aws:sns:ap-northeast-1:123456789012:alerts

# ログをLogs Insightsでクエリ(エラー件数の集計など)
aws logs start-query --log-group-name /aws/lambda/resize-image \
  --start-time 1717200000 --end-time 1717203600 \
  --query-string 'fields @timestamp,@message | filter @message like /ERROR/'

AWS Service

Amazon CloudWatchを実務で読む

TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。

解決すること

監視・運用

比較で見る軸

クラウド: AWS / カテゴリ: 監視・運用 / 難易度: basic

導入後に効く点

しきい値超えで通知やAuto Scalingなど自動アクションを起動。

先に潰すリスク

サービス単体ではなく、権限、ネットワーク、監視、課金、バックアップを含めて設計する必要がある。

数字・仕様の読み方
クラウド
AWS
カテゴリ
監視・運用
難易度
basic
関連資格
SAA-C03 / SOA-C02 / DVA-C02 / SAP-C02
設計柱
operational / reliability / performance

判断チェックリスト

  • 自社の用途が「監視・運用 / operational」に近いか確認する。
  • 強みである「メトリクス・ログ・アラームでAWSを可観測にする監視の中核。」が本当に評価軸になるか確認する。
  • 注意点の「サービス単体ではなく、権限、ネットワーク、監視、課金、バックアップを含めて設計する必要がある。」を運用で吸収できるか確認する。
  • 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
  • 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
  • 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。

次に確認する観点

監視・運用operationalreliabilityperformanceSAA-C03

他クラウドの同等サービス

役割が近いサービスです。設計の置き換えや比較検討の参考に。