Cloud Service
Amazon CloudWatch
メトリクス・ログ・アラーム・ダッシュボードでAWSを可観測にする監視の中核。自動アクションの起点にもなる。
基礎SAA-C03SOA-C02DVA-C02SAP-C02運用上の優秀性信頼性パフォーマンス効率
最終更新: 2026-05-31公式ドキュメント ↗
TL;DR要点だけ先に
- 1.メトリクス・ログ・アラームでAWSを可観測にする監視の中核。
- 2.しきい値超えで通知やAuto Scalingなど自動アクションを起動。
- 3.EC2のメモリ/ディスクは標準外でCloudWatch Agentが必要。

解決する課題
- システムが今どんな状態かを知りたい
- 異常を自動で検知して通知/対処したい
- ログを一元的に集めて調べたい
主要概念と用語
- メトリクス: 時系列の数値(標準メトリクス / カスタムメトリクス)
- 名前空間 / ディメンション: メトリクスの分類・絞り込み
- アラーム: しきい値超えで
ALARM状態 → アクション(SNS/Auto Scaling) - ログ(ロググループ/ストリーム)/ Logs Insights: 収集とクエリ分析
- ダッシュボード: 可視化
- CloudWatch Agent: OS内部の指標(メモリ等)やログを送る
仕様・制限・クォータ
- 標準は5分間隔、詳細モニタリングで1分間隔
- カスタムメトリクスは任意の粒度で送信可
- ログは保持期間を設定(無期限も可)
内部の仕組み
各サービスがメトリクスを自動送信し、CloudWatchが時系列で保持します。アラームは一定期間メトリクスを評価し、OK / ALARM / INSUFFICIENT_DATA の状態を持ちます。EC2の標準メトリクスにメモリ/ディスク使用率は含まれません(ハイパーバイザから見えないため)。これらは CloudWatch Agent を入れてカスタムメトリクスとして送ります。
メモリ監視のひっかけ
「EC2のメモリ使用率を監視」→ 標準では取れない。CloudWatch Agent が必要、が頻出ポイント。
設計パターン / ベストプラクティス
- アラーム → SNS通知 / Auto Scaling で自動対応
- ログを集約し Logs Insights で横断分析
- 重要指標をダッシュボード化
- 異常検知(Anomaly Detection)や複合アラームで誤検知を低減
運用・監視・トラブルシュート
- 監視対象の取りこぼし → Agent設定 / IAM権限を確認
- アラームが鳴らない → 評価期間・データ欠損(INSUFFICIENT_DATA)を確認
- コスト増 → カスタムメトリクス/ログ保持/高解像度の使い過ぎを点検
コスト
- メトリクス数・ログ取り込み量・ダッシュボード・アラーム数で課金
- 不要な高解像度・長期ログ保持を抑えると効く
セキュリティ
- ログの暗号化(KMS)とアクセス制御(IAM)
- 監査は CloudTrail、構成変更は AWS Config と役割分担
Well-Architected の観点
- 運用上の優秀性: 観測性と自動化の中核
- 信頼性: 異常検知→自動復旧(Auto Scaling/復旧アクション)
- パフォーマンス効率: ボトルネックの可視化
試験で問われるポイント
頻出
- メモリ/ディスクは標準外 → CloudWatch Agent
- 監視=CloudWatch / 監査=CloudTrail / 構成=Config の切り分け
- アラーム→SNS / Auto Scaling で自動対応
📝 CloudWatch ミニ確認テスト第 1 問 / 全 3 問
EC2インスタンスのメモリ使用率を監視したい。正しいのは?
関連サービス・比較
| サービス | 役割 | 問いの形 |
|---|---|---|
| CloudWatch | 性能/ログ監視・アラーム | 今どうなっている? |
| CloudTrail | API操作の監査証跡 | 誰が何をした? |
| AWS Config | 構成変更の追跡/準拠 | どう変わった?準拠してる? |
ハンズオン / CLI例
# CPU使用率80%超で通知するアラームを作成
aws cloudwatch put-metric-alarm \
--alarm-name high-cpu \
--namespace AWS/EC2 --metric-name CPUUtilization \
--dimensions Name=InstanceId,Value=i-0123456789abcdef0 \
--statistic Average --period 300 --evaluation-periods 2 \
--threshold 80 --comparison-operator GreaterThanThreshold \
--alarm-actions arn:aws:sns:ap-northeast-1:123456789012:alerts
# ログをLogs Insightsでクエリ(エラー件数の集計など)
aws logs start-query --log-group-name /aws/lambda/resize-image \
--start-time 1717200000 --end-time 1717203600 \
--query-string 'fields @timestamp,@message | filter @message like /ERROR/'
AWS Service
Amazon CloudWatchを実務で読む
TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。
解決すること
監視・運用
比較で見る軸
クラウド: AWS / カテゴリ: 監視・運用 / 難易度: basic
導入後に効く点
しきい値超えで通知やAuto Scalingなど自動アクションを起動。
先に潰すリスク
サービス単体ではなく、権限、ネットワーク、監視、課金、バックアップを含めて設計する必要がある。
数字・仕様の読み方
- クラウド
- AWS
- カテゴリ
- 監視・運用
- 難易度
- basic
- 関連資格
- SAA-C03 / SOA-C02 / DVA-C02 / SAP-C02
- 設計柱
- operational / reliability / performance
判断チェックリスト
- 自社の用途が「監視・運用 / operational」に近いか確認する。
- 強みである「メトリクス・ログ・アラームでAWSを可観測にする監視の中核。」が本当に評価軸になるか確認する。
- 注意点の「サービス単体ではなく、権限、ネットワーク、監視、課金、バックアップを含めて設計する必要がある。」を運用で吸収できるか確認する。
- 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
- 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
- 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。
他クラウドの同等サービス
役割が近いサービスです。設計の置き換えや比較検討の参考に。