
AI品質評価の方法
「品質」を分解して指標と閾値に落とす
AIの品質は一枚岩ではありません。曖昧な「良さ」から、意思決定に使える「測れる指標」に落とすところが出発点です。まずは用途ごとにゴールを宣言し、主要指標と許容範囲を決めます。
- 正確性(タスク達成): 期待する出力を満たした割合。例:FAQ回答の正答率85%以上、要約で主要論点回収率90%以上。
- 根拠性(Grounding): 回答がソースに裏づけられているか。例:引用付き回答率80%以上、未根拠主張0.5件/100応答以下。
- 安全性: 有害/機密/偏見の抑制。例:有害出力率0件、過剰拒否率5%未満。
- 一貫性・再現性: 同条件で大きくブレないこと。例:5回生成の意味等価率95%以上。
- 文体・ブランド適合: トーン、敬語、用字の遵守。例:スタイル適合スコア4/5以上。
- 運用効率: レイテンシとコスト。例:p95応答2秒以内、1会話当たりコスト20円以下。
モデル選定(ChatGPT, Claude, Gemini, Copilotなど)やプロンプト変更は、この指標群に対する改善仮説として扱います。評価は「指標→閾値→判断」の順で機械的に回せると迷いが減ります。
実務で回す評価フレーム(オフライン→オンライン)
1. データとルーブリックを整備
- 代表シナリオを網羅する100〜500件のゴールデンセットを作成(意図クラス、難易度、長文/短文、ノイズを含める)。
- 合否条件と部分点を明文化。望ましい回答例とNG例、禁止表現を添える。
- 採点尺度は5段階(0〜4)とPass/Failの併用が実務的です。
2. オフライン静的評価
- 候補モデル/プロンプト/ツール構成を固定し、一括生成→自動採点→人手監査。
- ペアワイズ比較でEloレーティングを算出すると総合優劣が見やすくなります。
- LLM-as-a-judgeも有効ですが、判定根拠の引用を必須にし、20%は人手で監査します(判定一致率0.7以上を目安)。
3. オンライン実験(A/B)
- 主要KPI(問い合わせ解決率、CSAT、一次返信までの秒数など)を1つに絞って比較。
- 母数の目安は各群1000セッション以上。逐次検定かベイズバンディットで早期打ち切りを設計。
- 失敗時の自動フェイルバック(旧モデルや人へエスカレーション)を用意します。
4. 継続モニタリング
- 日次でハルシネーション率、引用率、p95レイテンシ、コストをダッシュボード化。
- ドリフト監視:入力文分布やトピック変化を検知し、週次でゴールデンセットを追加入替。
- 重大インシデントはログと生成物、参照ドキュメント、判定をセットで監査可能に保管。
指標の作り方と計測レシピ
構造化タスク(抽出・分類)
- 正解ラベルがある場合は正答率/Precision/Recall/F1を採用。部分一致や同義語は正規化辞書で吸収。
- 値抽出はトレランス(±1日、数値±5%など)を許容したExact Matchで。
要約・生成(自由文)
- ROUGE/BLEUは参考程度。意味同等性は埋め込み類似度やペアワイズ人手評価で担保。
- 内容充足は「必須要素チェックリスト」を用意し、満たした項目割合で採点。
RAGの根拠性
- 引用カバレッジ:回答の主要主張のうち、引用で裏づけられた割合。
- 未根拠主張密度:100回答あたりの根拠なし主張数。閾値は業務リスクに応じて0〜2。
- 不確実時の黙秘率:証拠が薄いときに回答保留できた割合(高すぎると過剰拒否)。
安全性
- 有害カテゴリごとの検出と誤検出を分けて計測。拒否すべき入力での拒否率≥99%、通常入力での過剰拒否≤5%。
- 個人情報・機密のリークはルールベース+モデル判定の二重検知で。
効率・再現性
- p50/p95レイテンシ、タイムアウト率、1セッションあたりの入出力トークンと単価。
- 温度・乱数固定の上で5回再生成し、意味差分の発生率を測定。
身近な企業活用例:中堅ECの問い合わせボットを立て直す
返品規定や配送状況に関する問い合わせの一次対応をAI化しました。初期はChatGPTベースのRAGで公開したものの、返品期間の誤案内が続出し、CSATは3.6/5、ハルシネーション率14%、p95応答3.8秒という結果でした。
改善の流れは次の通りです。
- 品質分解と閾値設定:一次解決率≥70%、未根拠主張≤2/100、引用カバレッジ≥85%、p95≤2.5秒、コスト≤25円/会話。
- ゴールデンセット300件作成(繁忙期の例外規定、マルチ配送、クーポン絡みなどを網羅)。
- プロンプト刷新:回答の各主張ごとに社内ナレッジのURLを必ず引用、根拠なければ選択肢提示+有人エスカレーションを指示。
- モデル比較:ChatGPTとClaude、Geminiでペアワイズ評価。判定はGeminiをジャッジに使い、20%人手監査で一致率0.78を確認。
- 検索強化:インデックスをセクション単位に再分割、返品規定に有効期限メタデータを付与。クエリ拡張で日付正規化を実装。
- オンラインA/B:勝ち筋2案を各5,000セッションで比較。主要KPIは一次解決率、副次にCSATとp95。
- 運用:未根拠主張が出た時点で自動エスカレーション、ログを監査ボードへ集約。
結果、一次解決率は68%→79%、CSATは3.6→4.3、未根拠主張は14→2/100に低減。p95は3.8→2.1秒、コストは31→22円/会話でした。最終的にClaude構成が勝ち、繁忙期でも過剰拒否は4%以内に収まりました。失敗の原因は「根拠を強制しないプロンプト」と「時限ルールの検索精度」にあり、評価指標に沿って改善ポイントが明確化できた好例です。
評価は一度きりではなく、データとルーブリックの継続改善、モデルの入替やプロンプトのバージョニング、A/Bの定例化まで含めて仕組みに落とすと安定します。自社の生成AIプラットフォーム事業としては、モデル横断の評価ハーネス、ゴールデンセットのバージョン管理、LLMジャッジと人手評価のハイブリッド運用、監査可能なログ基盤を備えることで、上記の実務フローを安全かつ反復可能に支えられます。品質を数値で語れることが、導入速度と現場の信頼を同時に上げる近道です。