AI品質評価の方法

「品質」を分解して指標と閾値に落とす

AIの品質は一枚岩ではありません。曖昧な「良さ」から、意思決定に使える「測れる指標」に落とすところが出発点です。まずは用途ごとにゴールを宣言し、主要指標と許容範囲を決めます。

正確性（タスク達成）: 期待する出力を満たした割合。例：FAQ回答の正答率85％以上、要約で主要論点回収率90％以上。
根拠性（Grounding）: 回答がソースに裏づけられているか。例：引用付き回答率80％以上、未根拠主張0.5件/100応答以下。
安全性: 有害/機密/偏見の抑制。例：有害出力率0件、過剰拒否率5％未満。
一貫性・再現性: 同条件で大きくブレないこと。例：5回生成の意味等価率95％以上。
文体・ブランド適合: トーン、敬語、用字の遵守。例：スタイル適合スコア4/5以上。
運用効率: レイテンシとコスト。例：p95応答2秒以内、1会話当たりコスト20円以下。

モデル選定（ChatGPT, Claude, Gemini, Copilotなど）やプロンプト変更は、この指標群に対する改善仮説として扱います。評価は「指標→閾値→判断」の順で機械的に回せると迷いが減ります。

実務で回す評価フレーム（オフライン→オンライン）

1. データとルーブリックを整備

代表シナリオを網羅する100〜500件のゴールデンセットを作成（意図クラス、難易度、長文/短文、ノイズを含める）。
合否条件と部分点を明文化。望ましい回答例とNG例、禁止表現を添える。
採点尺度は5段階（0〜4）とPass/Failの併用が実務的です。

2. オフライン静的評価

候補モデル/プロンプト/ツール構成を固定し、一括生成→自動採点→人手監査。
ペアワイズ比較でEloレーティングを算出すると総合優劣が見やすくなります。
LLM-as-a-judgeも有効ですが、判定根拠の引用を必須にし、20％は人手で監査します（判定一致率0.7以上を目安）。

3. オンライン実験（A/B）

主要KPI（問い合わせ解決率、CSAT、一次返信までの秒数など）を1つに絞って比較。
母数の目安は各群1000セッション以上。逐次検定かベイズバンディットで早期打ち切りを設計。
失敗時の自動フェイルバック（旧モデルや人へエスカレーション）を用意します。

4. 継続モニタリング

日次でハルシネーション率、引用率、p95レイテンシ、コストをダッシュボード化。
ドリフト監視：入力文分布やトピック変化を検知し、週次でゴールデンセットを追加入替。
重大インシデントはログと生成物、参照ドキュメント、判定をセットで監査可能に保管。

指標の作り方と計測レシピ

構造化タスク（抽出・分類）

正解ラベルがある場合は正答率/Precision/Recall/F1を採用。部分一致や同義語は正規化辞書で吸収。
値抽出はトレランス（±1日、数値±5％など）を許容したExact Matchで。

要約・生成（自由文）

ROUGE/BLEUは参考程度。意味同等性は埋め込み類似度やペアワイズ人手評価で担保。
内容充足は「必須要素チェックリスト」を用意し、満たした項目割合で採点。

RAGの根拠性

引用カバレッジ：回答の主要主張のうち、引用で裏づけられた割合。
未根拠主張密度：100回答あたりの根拠なし主張数。閾値は業務リスクに応じて0〜2。
不確実時の黙秘率：証拠が薄いときに回答保留できた割合（高すぎると過剰拒否）。

安全性

有害カテゴリごとの検出と誤検出を分けて計測。拒否すべき入力での拒否率≥99％、通常入力での過剰拒否≤5％。
個人情報・機密のリークはルールベース＋モデル判定の二重検知で。

効率・再現性

p50/p95レイテンシ、タイムアウト率、1セッションあたりの入出力トークンと単価。
温度・乱数固定の上で5回再生成し、意味差分の発生率を測定。

身近な企業活用例：中堅ECの問い合わせボットを立て直す

返品規定や配送状況に関する問い合わせの一次対応をAI化しました。初期はChatGPTベースのRAGで公開したものの、返品期間の誤案内が続出し、CSATは3.6/5、ハルシネーション率14％、p95応答3.8秒という結果でした。

改善の流れは次の通りです。

品質分解と閾値設定：一次解決率≥70％、未根拠主張≤2/100、引用カバレッジ≥85％、p95≤2.5秒、コスト≤25円/会話。
ゴールデンセット300件作成（繁忙期の例外規定、マルチ配送、クーポン絡みなどを網羅）。
プロンプト刷新：回答の各主張ごとに社内ナレッジのURLを必ず引用、根拠なければ選択肢提示＋有人エスカレーションを指示。
モデル比較：ChatGPTとClaude、Geminiでペアワイズ評価。判定はGeminiをジャッジに使い、20％人手監査で一致率0.78を確認。
検索強化：インデックスをセクション単位に再分割、返品規定に有効期限メタデータを付与。クエリ拡張で日付正規化を実装。
オンラインA/B：勝ち筋2案を各5,000セッションで比較。主要KPIは一次解決率、副次にCSATとp95。
運用：未根拠主張が出た時点で自動エスカレーション、ログを監査ボードへ集約。

結果、一次解決率は68％→79％、CSATは3.6→4.3、未根拠主張は14→2/100に低減。p95は3.8→2.1秒、コストは31→22円/会話でした。最終的にClaude構成が勝ち、繁忙期でも過剰拒否は4％以内に収まりました。失敗の原因は「根拠を強制しないプロンプト」と「時限ルールの検索精度」にあり、評価指標に沿って改善ポイントが明確化できた好例です。

評価は一度きりではなく、データとルーブリックの継続改善、モデルの入替やプロンプトのバージョニング、A/Bの定例化まで含めて仕組みに落とすと安定します。自社の生成AIプラットフォーム事業としては、モデル横断の評価ハーネス、ゴールデンセットのバージョン管理、LLMジャッジと人手評価のハイブリッド運用、監査可能なログ基盤を備えることで、上記の実務フローを安全かつ反復可能に支えられます。品質を数値で語れることが、導入速度と現場の信頼を同時に上げる近道です。

AI品質評価の方法

AI品質評価の方法

「品質」を分解して指標と閾値に落とす

実務で回す評価フレーム（オフライン→オンライン）

1. データとルーブリックを整備

2. オフライン静的評価

3. オンライン実験（A/B）

4. 継続モニタリング

指標の作り方と計測レシピ

構造化タスク（抽出・分類）

要約・生成（自由文）

RAGの根拠性

安全性

効率・再現性

身近な企業活用例：中堅ECの問い合わせボットを立て直す

関連記事

年間運用総括レポート

年間分析総括レポート

年間SES事業総括レポート

成功事例総括とベストプラクティス