TL

インシデント対応とポストモーテム

障害を検知から復旧まで段取りよくさばく対応の流れと、終わった後に「人を責めず仕組みを直す」振り返り(ポストモーテム)で再発を防ぐ文化をまとめます。

中級インシデント対応ポストモーテムSRE信頼性最終更新: 2026-06-06
TL;DR要点だけ先に
  • 1.インシデント対応は検知→トリアージ→復旧(まず止血)→恒久対策の流れ。役割(指揮役・作業役・記録役)を決めると混乱しない。
  • 2.ポストモーテムは障害後の振り返り文書。タイムライン・根本原因・再発防止策を残し、同じ障害を繰り返さないための資産にする。
  • 3.鍵は「非難なき(blameless)」。個人を責めず、なぜその判断が妥当に見えたかを問い、仕組み・プロセスの欠陥を直す。

インシデント対応とは

インシデント とは、サービスに実害(停止・劣化・データ問題など)が出ている、または出かけている事態を指します。インシデント対応 は、これを 段取りよく収束させる一連の動き です。

混乱の最中に行き当たりばったりで動くと、「誰が何をしているか分からない」「同じ調査を二重にやる」「決定が二転三転する」といった二次災害が起きます。だからこそ、事前に決めた型 に沿って動くことが重要です。

対応の流れ:まず「止血」

インシデント対応は、おおむね次の段階を踏みます。原因究明より先に復旧(止血) を優先するのが鉄則です。

  1. 検知(Detection):監視・アラートやユーザー報告で異常に気づく。検知が速いほど被害は小さい(/devops/observability/)。
  2. トリアージ(Triage):影響範囲と深刻度を見極め、優先度を決める。「全停止」か「一部劣化」かで動きが変わる。
  3. 復旧(Mitigation)まず止血。原因が完全に分からなくても、ロールバック・フェイルオーバー・機能の一時停止(/devops/feature-flags/ のキルスイッチ)でユーザー影響を止める。
  4. 恒久対応(Resolution):止血後に根本原因を調査し、本質的な修正を行う。
  5. 振り返り(Postmortem):収束後に学びを残す(後述)。
原因究明より復旧が先

障害対応で陥りがちなのが「原因が分かるまで動かない」こと。ユーザーが困っている間は、理由が不明でも、まず影響を止める(直前のデプロイを戻す等)のが先決です。根本原因の解明は、止血してから落ち着いて行います。

役割を決める

規模の大きい障害ほど、役割分担 が効きます。一人で抱えると、調査も指揮も連絡も中途半端になります。

役割担当すること
インシデント指揮官 (IC)全体を統括し、意思決定する。自分では手を動かさない
作業担当実際の調査・復旧オペレーションを行う
記録担当時刻つきで起きたこと・やったことを書き留める
連絡担当関係者・経営・顧客への状況連絡を担う

特に 指揮官(IC)が「作業をしない」 のが肝です。指揮官まで手を動かすと、全体を見る人がいなくなります。記録担当が残すタイムラインは、後のポストモーテムの一次資料になります。

ポストモーテムとは

ポストモーテム(postmortem、事後検証) は、インシデントが収束した後に作る振り返り文書 です。「何が起きたか」「なぜ起きたか」「どう直すか」を記録に残し、組織の資産 にします。

典型的な構成は次の通りです。

  • 概要:何が・いつ・どれだけの影響で起きたか(影響範囲・継続時間)。
  • タイムライン:検知から復旧までの出来事を時刻つきで列挙。
  • 根本原因:表面的な引き金だけでなく、なぜそれが起きたのかを掘り下げる。
  • 検知と対応の評価:早く気づけたか、対応はスムーズだったか。
  • 再発防止策(アクションアイテム)担当者と期限を明記 した具体的な改善項目。
アクションアイテムは「担当と期限」をつける

「気をつける」「注意する」は再発防止策になりません。次に同じことが起きても防げないからです。「監視に X のアラートを追加(担当: 誰、期限: いつ)」 のように、仕組みを変える具体策+担当+期限 に落とすこと。やりっぱなしを防ぎます。

非難なきポストモーテム(Blameless)

ポストモーテム文化の核心が 「非難なき(blameless)」 という原則です。これは 「個人を責めない。代わりに、その人がなぜそう判断したのか、なぜミスが通ってしまったのかを問い、仕組みを直す」 という姿勢です。

なぜ非難しないのか。人を責める文化では、人は失敗を隠す からです。隠されれば学べず、同じ障害が繰り返されます。逆に「正直に話しても罰されない」と分かれば、本当の経緯が共有され、組織全体が学べます。

  • ❌ 非難あり:「○○さんが設定をミスしたのが原因」→ 個人攻撃で終わり、隠蔽を生む。
  • ✅ 非難なし:「危険な設定変更が、確認なしに本番へ反映できてしまう 仕組み が原因」→ ガードレールを足す。

前提は 「関わった全員は、その時点の情報で最善を尽くした」 と考えること。ミスが起きたなら、それは個人の不注意ではなく、ミスを許してしまったシステム側の欠陥 とみなします。

人ではなくシステムを責める

合言葉は「Blame the system, not the person」。優秀な人でも、危険な操作が簡単にできる仕組みなら、いつか誰かが事故ります。再発を防ぐのは「次は気をつけて」ではなく、そもそも事故れない仕組み(自動チェック・段階的反映・ロールバック)です。

SRE 文化との関係

これらは SRE(/devops/sre-slo/)の文化と深く結びつきます。SRE では障害を「学習の機会」と捉え、ポストモーテムを通じて信頼性を継続的に高めます。再発防止策を IaCCI/CD のガードレールに落とし込むことで、同じ失敗を 仕組みで 封じていきます。

まとめ

  • インシデント対応は 検知 → トリアージ → 復旧(まず止血)→ 恒久対応 の流れ。役割分担(指揮・作業・記録・連絡)で混乱を防ぐ。
  • ポストモーテムは タイムライン・根本原因・再発防止策 を残す振り返り文書。アクションは 担当と期限つき で。
  • 核心は 非難なき(blameless):個人を責めず、ミスを許した 仕組みの欠陥 を直す。
  • 障害を 学習機会 に変えるこの文化が、再発を防ぎ信頼性を底上げする。

DevOps/インフラ Article

インシデント対応とポストモーテムを実務で読む

TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。

解決すること

インシデント対応

比較で見る軸

難易度: intermediate / カテゴリ: DevOps/インフラ / タグ数: 4

導入後に効く点

ポストモーテムは障害後の振り返り文書。タイムライン・根本原因・再発防止策を残し、同じ障害を繰り返さないための資産にする。

先に潰すリスク

用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。

数字・仕様の読み方
難易度
intermediate
カテゴリ
DevOps/インフラ
タグ数
4

判断チェックリスト

  • 自社の用途が「インシデント対応 / ポストモーテム」に近いか確認する。
  • 強みである「インシデント対応は検知→トリアージ→復旧(まず止血)→恒久対策の流れ。役割(指揮役・作業役・記録役)を決めると混乱しない。」が本当に評価軸になるか確認する。
  • 注意点の「用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。」を運用で吸収できるか確認する。
  • 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
  • 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
  • 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。

次に確認する観点

インシデント対応ポストモーテムSRE信頼性インシデント対応ポストモーテムSRE信頼性
参考: 公式情報