監視失敗事例と改善策

2026.02.14
監視失敗事例と改善策

監視失敗事例と改善策

監視が役に立たない瞬間:現場で起きた失敗パターン

アラート疲れで本番障害を見逃す

深夜帯にCPU使用率80%超えの1分判定アラートが毎晩100件。誰も対処しなくなり、翌日朝の本当の障害通知も埋もれる——よくある失敗です。閾値がワークロードに合っていない、耐障害設計(オートスケール前提)と矛盾している、相関が弱い単発メトリクスを直接ページングにしている、のが原因になりやすいです。

仕様を見ない監視(SLO不在)

ユーザー体験の水準を定めるSLOがないと、何を守るべきかが曖昧になり、CPUやメモリの“健康さ”ばかりを見る構図になります。結果として、決済成功率が下がってもCPUは低いまま、という「青信号で事故る」事態が起こります。

外形監視なしで“緑一色”

内部メトリクスは全部グリーンなのに、実ユーザーは503を踏んでいる。CDN証明書の期限切れやDNS障害、IdP/OAuth連携の失敗は、内部チェックだけでは見えません。TLS有効期限が14日を切っても誰も気づかない、というのも典型例です。

ダッシュボード観賞用化とランブック不在

グラフは豊富なのに、アラートから次の一手が分からない。問い合わせ先、緩和策、ロールバック手順が一枚にまとまっていないと、対応が人依存になり、引き継ぎで品質が落ちます。

改善の筋道:SLO基点と多層観測

意思決定に使える監視へ変えるには、ユーザー影響から逆算して設計します。

  • サービスSLOを明文化する:例)営業時間9:00–24:00のチェックアウト成功率99.9%、p95レイテンシ300ms以下、月間エラーバジェット43分。
  • SLIの取り方を揃える:アプリ内計測(白箱)と外形合成(黒箱)の両輪。エンドツーエンドの購入シナリオ、TLS期限、DNS応答、依存SaaSのヘルスを含めます。
  • アラートはバースト率で:短窓/長窓の二段(例:5分/1時間のエラーバジェット消費率>14でページング、30分/6時間>2で警告)。閾値はSLO起点で決め、CPUやGCはチケット通知に格下げします。
  • 相関を前提に観測を設計:メトリクス・ログ・トレースの相互リンクを統一。トレースIDをレスポンスヘッダに返し、アラート通知に埋め込みます。
  • 第三者依存を監視に組み込む:CDN、決済、IdP、さらにアプリが使うChatGPTやClaude、Geminiなど外部AI APIのレイテンシ/失敗率を別SLOとして持ち、機能フラグで切り戻せるようにします。
  • 運用ドキュメントを即時参照に:アラートごとにランブックURLを必須化。要約や初期切り分けはCopilotやChatGPTで雛形を生成し、現場で追記して育てます。
  • 監視のテストを定常化:合成監視のシナリオはデプロイ前にCIで実行。月1回のゲームデイで、意図的に依存先を遮断し、検知までの時間とランブックの妥当性を計測します。

身近な企業活用例:EC中堅「みなとマーケット」の変革

業種:アパレルEC、従業員50名、売上の7割が夜間セール依存。状況:内部メトリクスは充実しているが、売上ダッシュボードは翌朝しか見ない。失敗:深夜1:00から決済プロバイダのコールバックがWAFでブロックされ、注文が0件に。CPUやAPサーバのヘルスは正常で、検知に47分。セールを棒に振り、翌日クーポン配布でコスト増。

改善:SLOを「チェックアウト成功率99.5%(5分窓)」と定義。外形合成でカート→決済→Webhook受信までを模倣し、Webhookエンドポイントの疎通とTLS期限もチェック。SLOのバースト率14超で即ページング、2超で当番チャネルに警告。依存関係マップにCDN/DNS/決済/IdP/レビュー要約機能(ChatGPT API使用)を追加し、AI機能は障害時に自動で機能フラグOFF。ランブックに「WAFルール一時緩和→セーフリスト登録→再計測」を明文化。結果:検知までの時間が47分→3分、誤通知70%削減、セール中の売上落ち込みがほぼ解消。副次効果として、レビュー要約の外部AI(Claude, Gemini)遅延時も本筋の購入体験は守れる構成へ。

明日から直せる運用改善チェックリスト

  • SLOを1ページで可視化(対象ユーザー、時間帯、可用性/レイテンシ、誤差含む測定方法)。
  • 短窓/長窓のバースト率アラートに統一。機械指標の単発ページングを排除。
  • 外形監視にユーザージャーニーを1本入れる(カート→決済→Webhook)。
  • TLS/証明書/DNS/ドメイン期限を資産台帳と突合、14日前で警告。
  • 依存SaaS/外部APIをリスト化し、各SLOと切り戻し手段(機能フラグ/キャッシュ)を対応付け。
  • アラート通知にトレースID、ダッシュボード、ランブックURLを必須項目として埋め込む。
  • 当番体制を二段化(一次当番/二次当番)し、エスカレーションSLAを合意。
  • メンテナンスウィンドウとノイズ抑制ルールを設定(デプロイ直後は一部抑制)。
  • 毎週1件、実アラートの事後検証を実施(検知時間、誤検知理由、ランブック更新)。
  • ダッシュボードは3枚に集約(可用性、レイテンシ、依存先)。「見る理由」がないグラフは消す。

監視の失敗はツール不足ではなく、意思決定のための設計不足から生まれがちです。SLOを起点に、外形と内側の両輪で観測を組み、アラートから一手目までをつなぐ。これが、サーバ監視運用事業の現場で再現性高く成果を出すための土台になります。