
クラウドコスト監視の実践
監視対象を“お金の単位”で定義する
クラウド請求は「総額」だけ見ても手遅れになりがちです。観点を利用実態に寄せ、意思決定できるKPIを先に決めます。おすすめはユニットエコノミクスの分解です。
最小KPIセット
- 1,000リクエストあたりコスト:当月クラウド費用 ÷ APIリクエスト数 × 1,000
- 1注文/1ユーザーあたりコスト:売上の変動と一緒に追うと投資対効果が見えます
- AI推論の1回あたりコスト/1トークンあたりコスト:モデル別(例:ChatGPT, Claude, Gemini)で分ける
- 非本番の毎時バーンレート:停止し忘れの検知に有効
これに加え、月次の「固定ベースライン費用」と「変動費用(トラフィック/ジョブ連動)」を分解し、固定の60〜80%は予約・割引(RI/SP)で固め、残りはスケール戦略で最適化する前提を置きます。
仕組みで防ぐ:タグ、予算、アラートを標準化
タグ設計の5原則
- env(prod/stg/dev)、system、owner、cost_center、data_classの5キーは必須
- IaCに組み込み、未タグは作れない(ポリシーで弾く)
- タグ値は辞書管理。自由記述は禁止
- タグは請求と監視ダッシュボードの両方で集計できるよう統一
- 終了期限タグ(ttl)で実験系を自動クリーン
予算とアラート閾値
- 環境別に月次予算を設定(prod:stg:dev=7:2:1が目安)
- 50/80/100/120%で通知。80%到達時にオーナー承認フロー、120%で非本番を自動スケールダウン
- 日次異常検知:前日比+30%または7日移動平均+3σでSlack/Teamsに即時通知
- AIジョブは金額ガードレール(ジョブ上限5,000円/日)。越えたら停止+要再申請
アカウント/プロジェクトをprodと隔離し、権限も分離。請求データは日次でデータウェアハウスに取り込み、ダッシュボードは「今月累計」「当日バーン」「予測」「上位コスト源(タグ/サービス)」の4枚だけに絞ると現場が回ります。開発スピードが上がるほどCopilotやChatGPTでの実験が増えますが、その分「作った分だけ課金」が増えるため、予算と停止仕組みは必須です。
ムダの温床と即効テクニック
- 過大プロビジョニング:CPU50%未満が7日続いたらサイズダウン。KubernetesはVPAとHPA併用、ノードはSpotをステートレスに限定
- 非本番の点けっぱなし:平日8–20時以外は自動停止。リリース週だけ例外タグで除外
- 孤立リソース掃除:未アタッチEBS/スナップショット90日超は通知→削除、S3はライフサイクルでIA/Glacierへ
- ネットワーク課金:NAT集中は高コスト。VPCエンドポイント活用、CDNのTTL・キャッシュキー最適化
- 予約/割引の最適化:過去90日の安定消費の50–70%を1年コミット(前払い少なめ)。四半期ごとに見直し
- AI推論の選択:本番は品質重視モデル、バッチ/下書きは軽量(例:Claude HaikuやGemini Flash)。トークン制限とキャッシュを併用
- クエリ課金のガード:BigQuery/Athenaはスキャン上限とパーティション、物理化ビューで暴走防止
やることは多く見えますが、最初の30日は「タグ強制」「予算と日次異常通知」「非本番スケジュール停止」の3点に絞ると費用は即下がります。
身近な企業の失敗と改善:中堅ECサイトのケース
AWS中心にGCPを一部併用。検索体験向上でChatGPTとClaudeを使った要約・レコメンドを導入。開発がCopilotで加速し、Kubernetesの一時クラスターやGPUノードが乱立。タグなし・予算なしの状態で月額300万円→420万円に急増、しかも売上は横ばいでした。
対策は以下の順で実施。
- タグ強制とアカウント分離。未タグはCIでブロック
- 部署別予算と日次アラート、AIジョブは5,000円/日で自動停止
- 非本番の自動停止、EBS/スナップショット整理、NAT最適化
- 安定負荷の60%をSavings Plan化。推論はGemini Flash/Claude Haikuへ一部置換、結果をキャッシュ
2カ月で総額は28%削減(420→302万円)。1注文あたりコストは94円→66円に改善、APIレイテンシとSLOは維持。役員会では「予算対実績」「変動費内訳トップ10」「次月予測」を月次報告に定着しました。以後は機能開発の意思決定で「コスト/注文」を必ず提示し、費用対効果を早期に潰し込めるようになりました。
コスト監視は性能や可用性の監視と同じ“運用の地層”に組み込むと、現場の迷いが減ります。サーバ監視運用事業の文脈でも、メトリクス収集・アラート運用・自動化の設計原則は共通です。違いは見る指標が「リソース」だけでなく「お金」に伸びること。だからこそ運用の仕立て直しが効きます。