年間運用ロードマップの作り方

2026.02.14
年間運用ロードマップの作り方

年間運用ロードマップの作り方

SLO・予算・四半期ゴールを先に決める

年間計画は「守るべき品質(SLO)」と「使える資源(人・費用)」を先に固定するとブレません。代表例は以下です。

  • SLO例:API可用性99.9%、MTTD(検知)3分以内、MTTR(復旧)30分以内。エラーバジェットは月43分(99.9%の許容ダウン)と明文化。
  • 対象範囲:コアAPI/支払い/管理画面をTier1、それ以外をTier2に分け、Tier1を優先。
  • 予算配分:運用改善(自動化/可観測性)に全体の15%、教育に3%、冗長化投資に10%を上限として四半期ごとに再配分。

四半期ゴールは「測れる」形に落とします。

  • Q1:アラートノイズ30%削減、主要5インシデントのランブック整備率100%。
  • Q2:自動復旧2ケース実装、MTTD中央値3→2分。
  • Q3:災害復旧訓練1回、RTO4時間/RPO15分を実測。
  • Q4:容量計画の外れ幅±10%以内、計画停止を年2回に集約。

骨格は「監視・自動化・体制・品質」で組む

監視:可観測性の再設計

RED(Rate/Errors/Duration)とUSE(Utilization/Saturation/Errors)でメトリクスを揃え、アラート条件は「ユーザー影響ベース」を原則に。閾値はP95レイテンシ+20%超過を10分継続で発報、など持続条件を必ず入れます。週30分のアラートレビューで、無効・重複・調整待ちをトリアージします。

自動化:小さく作り、確実に効かせる

  • トップ5障害のうち2件を自動復旧化(例:ディスクフル→ログローテート+古いワークスペース削除)。
  • アラートにコンテキストを付与(最後のデプロイSHA、直近エラートップ3、担当チーム)。
  • Copilotで運用スクリプトの雛形を作成し、レビューは必ずペアで実施。
  • 事後分析のサマリはChatGPTやClaudeで初稿を作り、5分で読み切れる1枚に圧縮。

体制:当番・RACI・訓練

  • 当番は「一次(SRE/運用)・二次(サービス担当)」の二段。一次のページ数は1シフトあたり5件以下を目標。
  • RACIを障害重大度で定義(SEV1は経営レベル含むブリッジ、SEV3は担当チーム内で完結)。
  • 偶数月にインシデント訓練。シナリオ素案はChatGPTで生成し、SLO違反までの意思決定を練習。

品質:変更管理とリスク低減

  • 変更凍結期間を繁忙期前後に設定。金曜夕方の本番変更は禁止。
  • 月例パッチのメンテ枠を第2火曜26:00–28:00に固定し、周知とロールバック手順をセット。
  • 四半期ごとのバックアップリストア演習、Q3にDRサイト切替のフルリハーサル。

年間カレンダー例(抜粋)

  • 週次:アラートレビュー30分、失敗した自動化の是正15分。
  • 月次:SLOダッシュボード確認、ノイズTOP3の恒久対策、容量見通しをGeminiで需要曲線試算。
  • 四半期:ポストモーテムの横断分析、運用OKR見直し、監視ルール棚卸し。

計測と定例の設計:意思決定の土台を作る

見るべきKPIを少数に絞り、判断に直結させます。

  • 信頼性:SLO達成率、エラーバジェット消費ペース、SEV別件数。
  • 検知/復旧:MTTD/MTTR中央値・P90、ページあたり解決率。
  • 運用負債:アラート総数、ランブックカバレッジ%、手作業比率。
  • コスト:ノード/GB/リクエスト単価、保存期間別ログ費用。

定例は「準備が3割、会議は短く」。前日までに一次資料を配り、当日は判断だけをします。ダッシュボードは、SLO→コスト→容量→変更履歴の順で1画面にまとめ、重大な逸脱は赤帯で即エスカレーション。会議後はClaudeで議事録を整形し、決定事項と期限を最上段に固定します。

身近な企業活用例:EC中堅「ハチミツマーケット」の失敗と改善

従業員30名のEC会社。年末セール期にアラートが日400件、当番が疲弊。ブラックフライデーでSEV1が発生し、MTTRが2時間に達したのが転機でした。

改善計画はQ1から着手。SLOを99.9%に設定し、ノイズ削減を最優先。重複ルールを廃止し、持続条件を導入して発報を62%削減。ランブックはChatGPTで雛形化、担当が加筆して1週間で主要5件を整備。Q2はCopilotでディスク系とワーカープロセス再起動の自動復旧を実装、MTTDは8→2分へ。Q3はDR訓練を実施し、RTO6→3.5時間、RPO30→12分を実測。Q4はGeminiで需要予測を回し、ピーク時のオートスケール閾値を見直し。結果、年間可用性99.95%、MTTR中央値65→18分、当番1シフトのページ数9→3、ログ保存の見直しでコスト15%削減。「何をやめるか」を四半期ごとに決めたことが、現場の納得につながりました。

年間運用ロードマップは、監視・自動化・体制・品質の4本柱を、SLOと予算で締める設計図です。数値で語れる計画にすれば、サーバ監視運用事業の現場でも迷いが減り、障害は「偶然」ではなく「許容可能なリスク」に変えられます。日々の小さなチューニングと、四半期ごとの軌道修正を積み重ねれば、来年の運用は今年より確実に楽になります。