インシデント対応とポストモーテム

インシデント対応とは

インシデント とは、サービスに実害（停止・劣化・データ問題など）が出ている、または出かけている事態を指します。インシデント対応 は、これを 段取りよく収束させる一連の動き です。

混乱の最中に行き当たりばったりで動くと、「誰が何をしているか分からない」「同じ調査を二重にやる」「決定が二転三転する」といった二次災害が起きます。だからこそ、事前に決めた型 に沿って動くことが重要です。

インシデント対応は、おおむね次の段階を踏みます。原因究明より先に復旧（止血） を優先するのが鉄則です。

検知（Detection）：監視・アラートやユーザー報告で異常に気づく。検知が速いほど被害は小さい（/devops/observability/）。
トリアージ（Triage）：影響範囲と深刻度を見極め、優先度を決める。「全停止」か「一部劣化」かで動きが変わる。
復旧（Mitigation）：まず止血。原因が完全に分からなくても、ロールバック・フェイルオーバー・機能の一時停止（/devops/feature-flags/ のキルスイッチ）でユーザー影響を止める。
恒久対応（Resolution）：止血後に根本原因を調査し、本質的な修正を行う。
振り返り（Postmortem）：収束後に学びを残す（後述）。

横にスクロール

原因究明より先に利用者影響を止め、SLOで復旧を確認します。指揮役は全体判断に専念し、作業・記録・連絡を並行させます。収束後は時系列と寄与要因を、担当・期限・完了条件のある対策へ変え、Git・CI・監視へ戻します。

原因究明より復旧が先

障害対応で陥りがちなのが「原因が分かるまで動かない」こと。ユーザーが困っている間は、理由が不明でも、まず影響を止める（直前のデプロイを戻す等）のが先決です。根本原因の解明は、止血してから落ち着いて行います。

規模の大きい障害ほど、役割分担 が効きます。一人で抱えると、調査も指揮も連絡も中途半端になります。

特に 指揮官（IC）が「作業をしない」 のが肝です。指揮官まで手を動かすと、全体を見る人がいなくなります。記録担当が残すタイムラインは、後のポストモーテムの一次資料になります。

ポストモーテム（postmortem、事後検証） は、インシデントが収束した後に作る振り返り文書 です。「何が起きたか」「なぜ起きたか」「どう直すか」を記録に残し、組織の資産 にします。

典型的な構成は次の通りです。

アクションアイテムは「担当と期限」をつける

「気をつける」「注意する」は再発防止策になりません。次に同じことが起きても防げないからです。「監視に X のアラートを追加（担当: 誰、期限: いつ）」 のように、仕組みを変える具体策＋担当＋期限 に落とすこと。やりっぱなしを防ぎます。

ポストモーテム文化の核心が 「非難なき（blameless）」 という原則です。これは 「個人を責めない。代わりに、その人がなぜそう判断したのか、なぜミスが通ってしまったのかを問い、仕組みを直す」 という姿勢です。

なぜ非難しないのか。人を責める文化では、人は失敗を隠す からです。隠されれば学べず、同じ障害が繰り返されます。逆に「正直に話しても罰されない」と分かれば、本当の経緯が共有され、組織全体が学べます。

前提は 「関わった全員は、その時点の情報で最善を尽くした」 と考えること。ミスが起きたなら、それは個人の不注意ではなく、ミスを許してしまったシステム側の欠陥 とみなします。

人ではなくシステムを責める

合言葉は「Blame the system, not the person」。優秀な人でも、危険な操作が簡単にできる仕組みなら、いつか誰かが事故ります。再発を防ぐのは「次は気をつけて」ではなく、そもそも事故れない仕組み（自動チェック・段階的反映・ロールバック）です。

これらは SRE（/devops/sre-slo/）の文化と深く結びつきます。SRE では障害を「学習の機会」と捉え、ポストモーテムを通じて信頼性を継続的に高めます。再発防止策を IaC や CI/CD のガードレールに落とし込むことで、同じ失敗を 仕組みで 封じていきます。