障害対応訓練と演習事例

2026.03.13
障害対応訓練と演習事例

障害対応訓練と演習事例

障害対応の訓練は、年1回の台本読みで満足してしまうと意味が薄れます。実戦では「深夜」「権限不足」「外部サービス障害」「連絡の齟齬」が同時多発します。監視やアラートの設計と一体で回すことで、初動短縮と復旧の質がじわじわ利いてきます。

訓練が機能しない理由を潰す

現場でよく詰まるポイントは決まっています。先に潰すと、演習の歩留まりが上がります。

  • 目的が曖昧:検知強化なのか、復旧なのか、連絡体制の検証なのかが混ざる
  • 計測していない:MTTA/MTTR、エスカレーション遅延、誤検知率が残らない
  • 関係者がいない:夜間当番、意思決定者、SaaS管理者、広報が不在
  • 外部依存を想定しない:認証・決済・CDN・メールの障害前提が抜ける
  • 権限と資材不足:本番で必要な昇格権限、Runbook、回避策スクリプトがない

設計の型:目的・シナリオ・計測を固定化

目的と指標を先に決める

毎回の演習で必ず測る指標を固定します。

  • 検知:MTTA(通知から着手まで)、誤検知率、アラート抑止の適正
  • 切り分け:仮説到達時間、ログ/メトリクスの可視性欠落数
  • 復旧:MTTR、回避策の適用時間、ロールバック成功率
  • 連絡:初報までの分、更新間隔、影響範囲の正確性

役割と準備物を明確にする

  • 指揮官:判断と外部連絡、優先度変更の承認
  • 一次対応:手順実行とログ採取
  • 監査役:時刻記録、事実と判断の分離、計測
  • 準備物:権限昇格方法、影響最小のテスト環境、Slack/メールの定型文、スクリーン録画

シナリオは「注目点」を1つに絞る

一度に全部は鍛えられません。回ごとに注目点を変えます。

  • L7遅延(バックエンドのスロークエリ)で切り分け能力に注目
  • 認証基盤の外部SaaS障害で連絡と回避策に注目
  • 証明書期限切れで権限と手順の整備に注目

演習メニューの具体:30分ドリルと月次総合

30分ドリル(週次)

  1. 疑似インシデントを発報(監視にサイレントルールを適用し、通知は演習用チャンネルへ)
  2. 一次対応はRunbook通りに進め、指揮官は影響を5分で仮置き宣言
  3. 10分で切り分け到達点を確認、回避策(機能フラグ、トラフィック制御)を試す
  4. 最後に事実/判断/推測を分けて口頭で復盤、指標を記録

月次総合(60〜90分)

  • 外部依存前提:認証SaaSレイテンシ増大、CDN設定誤り、メールの到達遅延を組み合わせ
  • 権限テスト:証明書更新、DBフェイルオーバーの昇格リクエストが通るか
  • 連絡:初報テンプレ更新、影響試算、顧客向け文面の二重承認フローの遅延測定

AI/自動化の使いどころ

  • ChatGPTやGeminiでログ要約の雛形を作り、切り分け仮説の候補を出す(最終判断は人)
  • Copilotでフォールトインジェクタのコード雛形を用意し、再現性の高い演習を実装
  • ポストモーテムのテンプレ生成とタグ付けに活用し、検索性を上げる

身近な企業の演習事例:アパレルECの失敗と改善

SRE2名、アプリ3名、クラウドはマネージド中心。セール初日にログイン遅延が発生し、外部認証APIのスロットルが原因でした。通知は来ていたものの、指揮官不在で初報が20分遅れ、回避策(ゲスト購入の一時有効化)の権限が不足、MTTRは72分でした。

対策として月次総合演習を導入。注目点を「連絡」と「権限」に絞り、以下を実施しました。

  • Runbookを「事実→判断→アクション」の3段で書き直し、影響の仮置きを5分で必ず宣言
  • 決裁者の代行ルールと一時昇格の手順をSlackワークフロー化
  • ゲスト購入の機能フラグを事前に用意し、CDNのキャッシュTTLを短縮できるよう整備
  • ChatGPTで初報/更新のテンプレ文面を生成し、広報チェックを早める
  • Copilotで負荷注入スクリプトを整え、毎週の30分ドリルで再現
  • Geminiでアクセスログを要約し、影響ユーザー推定を自動化(監査役が最終確認)

3か月後、MTTAは18分→7分、MTTRは72分→24分に短縮。セール時のカゴ落ち率も1.8%改善しました。決め手は「権限と連絡の摩擦を減らす設計」と「小刻みなドリルの積み重ね」でした。

サーバ監視運用事業と訓練の接地面

訓練は監視の質を測る最短のリトマス試験紙です。アラート設計の粒度、SLOと通知閾値の整合、Runbookの鮮度、当番体制の弱点が数字で見えます。サーバ監視運用事業では、日々の計測と復盤によってアラートのノイズを減らし、権限や連絡のボトルネックを前倒しで潰すことができます。演習で得た学びを監視ルールと運用基準に即時反映し、次の障害で「迷わない」状態を増やしていく。訓練と運用が同じダッシュボードで循環し始めたとき、現場の強さは安定して伸びます。