
年間AI活用総括レポート
成果を分けたKPIと運用設計の定着度
意思決定に使えるKPI
今年の勝ち組は「体験」だけでなく「定量」を回せた組織でした。現場で効いたKPIは次の3点に収れんします。1) 業務ごとの処理時間短縮率(例:一次ドラフト作成が平均45→18分、短縮率60%)、2) 正答/採用率(プロンプト出力がそのまま採用された割合。ナレッジ検索は70%超で定着の目安)、3) 人手検証コスト(1件あたり承認時間)。これらを週次で可視化し、閾値を割ったら「プロンプト修正/ナレッジ更新/モデル乗り換え」のいずれかに即スイッチする運用が、恒常的な改善に直結しました。
コスト設計の型
コストは「1リクエストあたり上限金額」を先に決め、プロンプト長・最大出力トークン・画像やファイル処理の有無で制御するのが堅実です。設定例として、問い合わせ自動応答は1件30円上限、要約は10円、文案作成は50円。長文化しがちなワークフローは、冒頭で目的・体裁・禁止事項を明記し、RAGで根拠を3件以内に限定、出力は表形式や箇条書きで冗長性を抑えます。頻出問い合わせはキャッシュを導入し、日次で命中率を監視するだけでも月間コストが2〜3割下がりました。
SLO/運用品質の基準
生成AIを実務に組み込むなら、レイテンシSLOを定義します。目安はp95で4秒以内、超過時は自動的に軽量モデルへフォールバック。ハルシネーションは「根拠ソース数=1以上」「ソース被覆率=70%以上」「不明時に黙らない(回答不能テンプレへ退避)」を判定条件にし、ログで不合格サンプルを日別に抽出、週1でプロンプトとナレッジを更新します。
定番ユースケースの勝ち筋と失敗パターン
カスタマーサポート
勝ち筋は「FAQ整備→RAG→トーン統一テンプレ→ヒト承認」の順。一次回答の自動化率は6割超で安定します。失敗はFAQの鮮度不足と、根拠未提示での断定口調。ChatGPTやClaudeは根拠要約が得意で、回答末尾に「参照: …」を必ず付けるだけでCS満足度が底上げされました。
社内ナレッジ検索/要約
議事録・議案・設計書の統合検索は、権限と改版管理がボトルネックです。Geminiのマルチモーダルで図表を含む資料も要約対象にしつつ、アクセス権のない文書はスニペットをぼかす「権限前提RAG」を必須化。これを怠ると情報漏えいリスクが跳ね上がります。
開発支援
Copilotは補完・テスト生成で生産性が高い一方、レガシー固有の設計意図は学習外です。設計指針や社内ライブラリのサンプルをプロンプトの先頭に差し込む「ガイドレール・プロンプト」を標準化すると、リファクタ品質が安定しました。
企業活用例:町工場の見積り自動化、やらかしからの再設計
受注増で見積りが逼迫し、担当3名で月400件に対応。最初はChatGPTへ図面メモと過去見積りCSVを貼り付けて文面生成しましたが、単価の取り違えや納期矛盾が続出し、社外秘の原価情報を誤って貼る事故まで発生。現場停止で逆風が吹きました。
再設計では、方針を「自由入力→禁止」「RAGで確定データ以外は使わない」に転換。BOMと加工条件はERPの読み取り専用APIから取得、原価は最新版テーブルのみ参照、納期は設備稼働の空き枠APIで算出。計算は関数呼び出しで行い、生成モデルは金額計算を一切しない役割分離にしました。文面生成はClaudeで柔らかい表現に、図面の注記抽出はGeminiで画像解析。承認フローは「自動計算→ドラフト→担当者の3分レビュー→送付」に固定し、プロンプトはテンプレをリポジトリ管理。品質評価は週20件をサンプリングし、見積誤差率・承認時間・受注率を追跡しました。
結果、見積リードタイムは平均3日→6時間、価格誤差は±1.5%以内に収束、受注率は8%向上。重要なのは「計算はシステム、表現は生成AI、最終判断は人」という役割分担です。最初の失敗は、モデルに何でもやらせたことと、データ出所を固定しなかったことに尽きました。
来期に向けたモデル選定・ガバナンス・コストの実装指針
モデル選定/ルーティング
長文要約や合意形成の文案はClaude、ツール連携や関数呼び出し前提の業務はChatGPT、画像/図表を含む解析はGemini、と役割を決めたうえで、タイムアウト3秒で軽量モデルにフェイルオーバー。評価は月次で代表100プロンプトのABテストを行い、採用率とレイテンシの積でランキングするのが実務的です。
ガバナンス/セキュリティ
PII/機密語リストによる入出力マスキング、プロンプト/応答ログの90日ローテーション、RAGの根拠URL/文書IDの保存、回答不能テンプレの整備は四点セットとして必須。社外向け出力には「生成物ポリシー(責任者/最終承認/引用規定)」を明文化し、監査で再現できる状態にします。
コストと品質の両立
前処理でPDFの不要ページ・画像を削減し、チャンクは意味単位で重なり20%程度、埋め込みは更新差分のみ再計算。高頻度ジョブはバッチ化、同一質問のキャッシュTTLは24時間を目安に。これだけで多くの現場はコスト20〜40%減、レイテンシも体感で1〜2秒改善します。
一年を通じ、生成AIは「万能な相棒」ではなく「設計した役割を果たす部品」として扱うほど成果が出ました。次の一年も、モデル選定・評価・権限制御・コスト最適化を一枚のプラットフォームに収めて回し続けることが、生成AIプラットフォーム事業としての価値を最も高める近道だと考えます。