
インシデント対応フロー完全解説
どこからがインシデントか:重大度・SLO・宣言ルール
夜中にアラートが鳴っても「本当に重大?」と迷う時間が一番の無駄です。判断基準は、SLOと重大度を明文化して潰しておきます。例として、月間SLO 99.9%(エラーバジェット約43分)を前提に、次を宣言条件とします。
- 検知基準(例):5分移動平均でHTTP 500率が5%以上、またはp95レイテンシ3秒超
- ユーザー影響(例):決済失敗が10分間で50件超
- エラーバジェット消費速度(例):1時間で20%以上消費する傾向
重大度はS1〜S4で運用します。S1=収益/安全に直結、全ユーザー影響、即時全員招集。S2=一部機能や一部地域影響、オンコール+担当チーム。S3=回避策あり、営業時間内に対応。S4=監視調整や軽微な不具合。宣言は「曖昧なら上げて、早めに下げる」を原則に、時間制限(例:2分で判断できなければS2宣言)を付けます。
通知チャネルと命名規約
インシデントチャンネル名は「inc-YYYYMMDD-連番」、チケットも同じIDで統一。発生から2分以内にチャンネル/チケット作成、5分以内に一次報告(何が・誰が・いつまでに次更新)を流します。
分単位で動く対応フロー:検知→切り分け→エスカレーション→復旧
T+0〜5分:検知とアサイン
- オンコールがアラートを確認しACK。S1は2分以内、S2は5分以内をSLAに。
- インシデントコマンダー(IC)を即時指名。ICは指揮と判断専任、手は動かさない。
- 現状共有テンプレ:「影響/範囲/暫定評価/次の更新時刻」。
T+5〜15分:一次切り分けと安全化
- 直近デプロイ有無、トラフィック急増、依存サービス障害を並列確認。
- ユーザー被害の増加を止める行為(カナリアへ切戻し、機能フラグOFF、レート制限)を優先。
- 「最短で安全化、次に正確化」。根本原因の追及は復旧後に回します。
T+15〜30分:専門チーム招集と外部連携
- DB/ネットワーク/認証など領域ごとにエスカレーション。ICは役割を明確化(ハンドラー、コミュニケーション、書記)。
- 関係者向け定期更新(S1は15分間隔、S2は30分)。顧客向け文面は短く事実ベースで。
復旧→検証→クローズ
- 復旧後はメトリクス正常化とユーザー操作回復をダブルチェック。
- 暫定対策を記録し、恒久対策のオーナーと期限を決定。
- クローズ条件(例:1時間安定、再発兆候なし、ポストモーテム起票)を満たして終了。
仕組み化のコア:Runbook・RACI・自動化とAI活用
人の勘に依存しないための3点セットが効きます。
Runbookの最小構成
- 症状の定義(例:p95>3s、500率>5%)
- 想定原因(デプロイ/依存/スパイク/リーク)
- 確認コマンド/ダッシュボードリンク
- 安全化手順(ロールバック、フラグOFF、スロットル設定)
- 復旧判定とロールフォワード条件
RACIと当番設計
IC=Responsible、各サブシステムTL=Accountable、SRE/開発=Consulted、広報/CS=Informed。週替わりローテーションと連絡先を常時更新します。
自動化とAIの実務活用
- アラート→チケット→チャンネル作成までを自動連携。更新リマインドもボットで。
- ログ要約や初期仮説の草案にChatGPTやClaude、障害タイムライン抽出にGeminiを活用。
- 設定差分のリバートやIaC修正はCopilotでレビュー効率化。
- ポストモーテムは72時間以内に作成。再発防止策は計測可能なKPI(MTTA/MTTR/検知精度)に紐づけます。
身近な企業活用例:中堅D2Cの失敗と改善
セール開始直後、推薦機能の新リリースが接続プールを枯渇させ、500エラーが全体の18%に。オンコールが「様子見」で9分停滞、誰が決めるか不明なままログ収集が乱立し、復旧まで96分。売上は大きく毀損しました。
翌週からフローを刷新。S1しきい値を明確化(500率5%超で即S1宣言)、ICの週次ローテーション、チャンネル命名統一、15分ごとの更新を義務化。Runbookには「機能フラグOFF→推薦API切替→CDNキャッシュ延長→書き込み優先度調整」を追加。初動の要約はChatGPT、時系列の自動整形にClaude、ログの異常パターン抽出にGeminiを導入。設定ロールバックのPRはCopilotで作成しレビュー時間を短縮しました。
結果、次の障害ではMTTA 9→3分、MTTR 96→28分、エラーバジェット消費は許容内に収まり、セールは継続。CSへの一次回答テンプレも整備され、社内外の混乱が激減しました。決め手は「宣言を早く、役割を固定し、手順を短文化」したことです。
インシデント対応は、道具よりもフローと共通言語が威力を発揮します。検知基準と重大度、分単位の行動、RunbookとRACI、そして自動化とAIの下支え。これらが回り始めると、サーバ監視の価値は「見る」から「守る」へと変わります。サーバ監視運用事業に携わる現場こそ、検知から復旧・学習までを一筆書きで回す設計が、日々の安定とチームの余白を生みます。