ハイブリッド運用事例

2026.02.21
ハイブリッド運用事例

ハイブリッド運用事例

現場が選ぶハイブリッド運用の型

監視は「完全自動化」でも「完全人力」でも安定しません。実運用で落ち着くのは、自動化と人の判断、社内と外部のスキルを組み合わせるハイブリッド型です。典型は、24時間の一次対応を外部NOCや自動化でさばき、業務やアーキテクチャに詳しい社内SRE/開発が二次対応を担う二層体制。オンプレとクラウド混在でも、検知は一元化、復旧は最短手で分担します。

流れはシンプルです。メトリクス・ログ・トレースから異常を検知→ノイズを抑えたアラートに正規化→ランブックに沿って一次対応(回避・再試行・切替)→SLOを逸脱する恐れがあればエスカレーション→二次対応で根治。このとき窓口は1本、連絡と手順は画面1枚に収めるのが鉄則です。

昼間は社内当番、夜間・休日は外部一次対応に委譲という切り分けも有効です。コストは平準化しつつ、重大障害の判断と改善は社内に残せます。ポイントは、委譲できる操作とできない操作を事前に定義し、監査証跡を自動で残すことです。

設計の肝:アラートを意思決定可能にする

ハイブリッド運用を成功させる根っこは、アラートを「すぐに選べる行動」に落とす設計です。抽象的な“CPU高い”では一次対応は迷い、二次対応も疲弊します。具体は次の通りです。

  • 重要度の三層化:Blocker(直ちにSLO逸脱/収益影響)、Degraded(劣化だが許容)、Informational(傾向)。Blockerは自動電話/SMS、Degradedはチャット、Informationalは日次報告に留めます。
  • SLO連動の閾値設計:例)チェックアウト成功率99.5%を下回る予測が立ったら5分以内に一次対応。リソース系の閾値はSLOを守るための手段として紐づけます。
  • 抑制とメンテ窓:デプロイ/バッチ/バックアップの時間帯は一括抑制。相関するアラートをまとめて「インシデント1件」に束ね、重複通知を防ぎます。
  • エスカレーションポリシー:5分で未着手→再通知、15分で二次当番に自動エスカレ。窓口はチャットOpsに固定し、電話は最後の手段にします。
  • ランブックの“3択化”:一次対応者は「回避」「再試行」「切替」の3択から選ぶだけにし、各選択肢にコマンドとロールバックを添えます。
  • 1画面運用:メトリクス、直近変更、関連ログ、影響範囲(売上/ユーザ数)を同一ビューに。判断がページ跨ぎにならないようにします。

AIとツール連携で“手数”を削る

一次対応の自動化ポイント

アラートの要約と初動提案はAIが相性の良い領域です。例えばChatGPTやClaudeに過去の障害テンプレートと最新ログ断片を渡し、「想定される原因候補」「実行前チェック」「安全な回避策」をTL;DR形式で生成。実行は人間、提案はAIという線引きにすると、誤操作リスクを抑えつつ判断が早まります。

復旧スクリプトやAnsible/PowerShellの修正はGitHub Copilotでのペア作業が効きます。差分パッチとテストの雛形まで一気に作らせ、レビューは二次対応者が行う運用にすると、夜間でも安全網が効きます。

二次対応・振り返りの強化

障害タイムラインの自動整形やポストモーテムの下書きはGeminiが便利です。チャットログ、監視イベント、デプロイ履歴を突き合わせ、「検知→判断→対処→回復」の時系列を生成。そこにSLO影響と再発防止アクションを人間が追記すれば、翌日の共有が10分で済みます。

導入時はガードレールを。AIの出力は実行不可のテキストのみ、変更はPR経由、個人情報や機密ログはマスキング。効果測定は「誤検知率」「一次バイパス率」「無効ランブック率(読んだが役に立たなかった)」の3指標で追うと改善が回ります。

身近な企業活用例:Aroma Martの失敗と改善

スパイス通販のAroma Mart(社員約200名、年商30億円)。ECはクラウド、倉庫WMSはオンプレ。監視はバラバラのダッシュボード、一次対応は情シス3名が持ち回り。繁忙期にCPU高騰のアラートが雪崩れ込み、本質的な「チェックアウト失敗」を見逃し、カゴ落ちが増加。障害後の振り返りもWikiに断片化していました。

転機は、アラート120種の棚卸しとSLO設計。チェックアウト成功率99.5%、出荷遅延30分以内をSLOに設定し、Blocker12件、Degraded18件、残りをInformationalに再分類。抑制ルールでバッチ起因の誤爆を止め、1画面運用を構築しました。

運用体制はハイブリッドへ。夜間と休日の一次対応を外部NOCに委託し、社内SREは二次対応と改善に集中。ChatGPTでアラート要約、Claudeで関連ログの要旨抽出を自動化。Copilotで復旧スクリプトの整備を進め、Geminiでポストモーテムの下書きを作成。実行権限は一次は回避系のみ、恒久対策はPR必須というルールに統一しました。

4週間で指標は明確に改善。週あたりのアラートは320件→180件、MTTAは12分→4分、MTTRは68分→26分、夜間の呼び出しは60%減。委託費とAPI費用で月15万円増えた一方、カゴ落ち減少で売上毀損が抑えられ、粗利で十分に相殺。現場の実感として「迷わない」「朝の共有が早い」が定着し、改善サイクルが回りはじめました。

この事例が示すのは、ハイブリッド運用は“道具の寄せ集め”ではなく、SLOに基づいたアラート設計、明確な役割分担、AIを使う場所の見極めが揃って初めて効くということです。サーバ監視運用事業の価値は、まさにこの設計と運用ルール、ツール統合を束ねて、現場が意思決定だけに集中できる土台を提供するところにあります。