Cloud Service
AWS Health Dashboard
自分のAWS環境に影響するイベントや計画メンテナンスを通知し、障害対応を早める。広域障害の状況確認とリソース単位の影響把握を一元化する。
- 1.AWSの障害や計画メンテが自分のアカウント/リソースにどう影響するかを通知する。
- 2.公開の Service health と、アカウント固有の Your account health の2つの視点がある。
- 3.EventBridge と連携してイベントを起点に自動対応や通知を組める。
解決する課題
AWS で障害や遅延が起きたとき、「これは AWS 側の問題なのか、自分の設定ミスなのか」を切り分けたいという要求があります。また、リタイア予定の EC2 インスタンスや証明書の更新など、自分のリソースに対する計画されたアクションを見落とすと、ある日突然サービスが止まることになります。AWS Health Dashboard は:
- AWS 側のサービス障害の発生状況を横断的に把握する
- その障害が自分のアカウント/リソースに影響するかを確認する
- リタイアやメンテナンスなど事前に対応すべきイベントを通知する
主要概念と用語
- Service health(公開ダッシュボード): 全ユーザー共通の、各リージョン・サービスの稼働状況。サインイン不要で見られる広域ステータス
- Your account health(アカウント固有): サインインした自分のアカウントに影響するイベントだけを表示する個別ビュー
- イベント: 障害(issue)、計画変更(scheduled change)、アカウント通知などの種別を持つ通知の単位
- 影響を受けるリソース: そのイベントが具体的にどのリソース(インスタンス ID 等)に関係するかの一覧
- AWS Health API: アカウント固有のイベントをプログラムから取得する API。プログラムアクセスにはビジネス以上のサポートプランが必要
- Organizational view: AWS Organizations 全体のイベントを管理アカウントから一括で確認する集約ビュー
仕様・制限・クォータ
- 公開の Service health はサインイン不要、Your account health はサインインが必要
- アカウント固有イベントの API アクセスには上位のサポートプランが必要(コンソール閲覧自体は全プランで可能)
- イベントには種別(障害・計画変更・アカウント通知)とリージョン・サービスのスコープが付く
- 過去イベントには参照できる保持期間があり、古いものは一覧から外れる
広域障害の第一報では Service health で全体像を、次に Your account health で自分への影響有無を確認すると切り分けが速くなります。
内部の仕組み
AWS の各サービスがイベントを発行し、Health がそれを集約してアカウントの構成と突き合わせます。これにより「全体としての障害」だけでなく「自分のどのリソースに影響するか」を解決します。アカウント固有イベントは AWS Health API や EventBridge を通じて配信され、コンソールの Your account health にも反映されます。
- イベントはほぼリアルタイムで EventBridge に配信され、ルールでフィルタして処理できる
- Organizations を使うと、複数アカウントのイベントを管理アカウントに集約できる
Service health が緑でも、特定リソースにだけ影響する計画アクションが Your account health に出ていることがあります。両方を見る習慣が重要です。
設計パターン / ベストプラクティス
- EventBridge でイベント駆動の通知を組む: Health イベントを SNS や Chat、チケット起票に流して見落としを防ぐ
- 計画アクションを自動でトリアージ: リタイア通知などを受けたら、対象リソースのタグからチームへ自動ルーティングする
- Organizational view で全社集約: マルチアカウント環境では管理アカウントに集約して横断監視する
- CloudWatch/オブザーバビリティと併用: Health は AWS 側起因の事象、自前メトリクスはアプリ起因の事象、と役割を分けて見る
運用・監視
- 広域障害の調査は Service health → Your account health の順で影響を切り分ける
- 計画変更(メンテ・リタイア)は対象リソースと期限を控え、前もって対応計画を立てる
- EventBridge ルールでイベント種別ごとに通知先を分ける(緊急障害と通常通知を分離)
- マルチアカウントでは Organizational view で取りこぼしがないか定期確認する
コスト
- AWS Health Dashboard の閲覧そのものに追加料金はかからない
- アカウント固有イベントの API/プログラムアクセスは上位サポートプランが前提(プラン費用として発生)
- EventBridge や SNS などの連携先サービスは、それぞれの利用量に応じて課金される
セキュリティ
- アクセス制御は IAM で行い、Health API の閲覧権限を最小権限で付与する
- Organizational view の集約は管理アカウント側で有効化し、権限の委譲範囲に注意する
- イベント内容には対象リソース情報が含まれるため、通知先(チャット等)の閲覧範囲を適切に絞る
- API 操作の監査は CloudTrail で記録する
Health イベントを外部チャットやメールに転送する場合、リソース ID など環境情報が外部に渡ることになります。配信先のアクセス権を確認します。
関連サービス・比較
監視の中核である Amazon CloudWatch とよく対比されますが、両者は見ている対象が異なり補完関係です。CloudWatch は自分のメトリクスやログから状態を見るのに対し、Health は AWS 側起因のイベントを通知します。
| 観点 | AWS Health Dashboard | Amazon CloudWatch |
|---|---|---|
| 主目的 | AWS側の障害/計画イベント通知 | メトリクス・ログ・アラーム |
| 起点 | AWSが発行するイベント | 自分のリソースの数値 |
| 得意な問い | AWS側に問題がある?影響する? | 今どんな状態?しきい値超え? |
| 主な使いどき | 広域障害の切り分け・計画対応 | 状態監視と自動アクション |
ハンズオン / CLI例
# 自分のアカウントに影響する直近のイベントを一覧(API利用は上位サポートプランが前提)
aws health describe-events \
--filter eventStatusCodes=open,upcoming \
--region us-east-1
# 特定イベントが影響するリソースを確認
aws health describe-affected-entities \
--filter eventArns=arn:aws:health:us-east-1::event/EC2/AWS_EC2_INSTANCE_RETIREMENT_SCHEDULED/example \
--region us-east-1
AWS Service
AWS Health Dashboardを実務で読む
TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。
解決すること
監視・オブザーバビリティ
比較で見る軸
クラウド: AWS / カテゴリ: 監視・オブザーバビリティ / 難易度: basic
導入後に効く点
公開の Service health と、アカウント固有の Your account health の2つの視点がある。
先に潰すリスク
サービス単体ではなく、権限、ネットワーク、監視、課金、バックアップを含めて設計する必要がある。
- クラウド
- AWS
- カテゴリ
- 監視・オブザーバビリティ
- 難易度
- basic
- 関連資格
- SAA-C03 / SOA-C02 / DOP-C02
- 設計柱
- operational / reliability
判断チェックリスト
- 自社の用途が「監視・オブザーバビリティ / operational」に近いか確認する。
- 強みである「AWSの障害や計画メンテが自分のアカウント/リソースにどう影響するかを通知する。」が本当に評価軸になるか確認する。
- 注意点の「サービス単体ではなく、権限、ネットワーク、監視、課金、バックアップを含めて設計する必要がある。」を運用で吸収できるか確認する。
- 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
- 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
- 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。