
AIモデル選定基準2026
「最強モデルを入れれば勝てる」は過去の話です。2026年の選定は、ユースケース×運用×法務の整合を取り、トータルで“速く・安く・安全に”回る構成を作れるかが勝負どころです。性能差は縮まりつつも、価格帯・機能・データ取り扱い・SLA・拡張性には明確な差が残ります。以下は実装現場でそのまま使える判断材料です。
まず見るべき6軸と閾値の置き方
1. 品質(日本語実務での再現性)
- 指示追従/関数呼び出し正確性:自社プロンプト200〜500件で評価。関数呼び出しは成功率95%以上、禁則語/禁出力の順守率97%以上を目安。
- RAGの忠実性:根拠リンク一致率95%かつ幻覚率3%未満(社内レビュア×少数のLLM判定で二重審査)。
- マルチモーダル:表画像→表データ化のセル正解率98%を基準、失敗時のフォールバック手順を定義。
2. セキュリティ/法令
- データ保護:保存オプトアウト可否、保持期間、暗号化。個人情報保護法(APPI)に照らし、学習利用なし/保管0日を原則。
- データ所在:JP/EUリージョン選択と監査証跡(監査ログAPI)。ISO/IEC 27001相当の開示。
3. コスト/TCO
- 推論単価(入力/出力トークン別)×平均トークン長×月間件数で見積。プロンプトキャッシュ/バッチ推論で20〜40%圧縮を狙う。
- 目安:同期対話はp95 3秒以下、1件あたりコストは有人代替の10%以下を初期KPIに。
4. 運用性
- レート制限と同時実行数、エラーハンドリング(429/5xxの再試行ルール)。
- 監視:プロンプト/レスポンスの匿名化ログ、品質ダッシュボード、評価データの継続学習ループ。
5. 拡張性
- ツール使用/関数呼び出し、システムプロンプトの階層化、RAGやLoRAによる微調整の両立。
- マルチモデル・ルーティングの容易さ(小タスクは軽量モデル、大タスクは高性能モデル)。
6. 供給安定性
- SLA(99.9%以上)とモデルの後方互換性/廃止ポリシー。主要クラウド上の可用性。
- 代替候補の存在(例:ChatGPT, Claude, Geminiの三つ巴でバックアップ)。
2週間で決め切る評価プロセス
Day1-3: ユースケースと基準の固定
- タスク定義を「入力→期待出力→採点規則」で記述。20件は境界事例(難問)を入れる。
- 合否ラインを数値化(例:テンプレ準拠率100%、禁句ゼロ、根拠URI必須)。
Day4-7: 候補のショートリストとオフライン評価
- 候補3つ(例:ChatGPT API、Claude、Gemini)で同一プロンプトを200〜500件流す。
- 指示追従、ツール呼び出し、RAG忠実性、毒性/機密漏えいを自動採点+人手で二重化。
Day8-12: 小規模オンラインA/B
- 本番トラフィックの5〜10%でA/B。p95遅延、一次解決率、エスカレーション率を計測。
- プロンプトキャッシュON/OFF、ストリーミング、バッチでランタイムコストを比較。
Day13-14: 意思決定と落とし穴回避
- 総合スコア=品質60%+コスト25%+運用性15%。ベスト1+バックアップ1で採用。
- 落とし穴:公開ベンチのみで決める/日本語評価が薄い/リージョン要件の見落とし。
身近な企業活用例:EC中小の失敗とやり直し
登場企業:事務用品EC「オフィサポ」(従業員80名)。目的は問い合わせ返信の自動化。初手は「一番賢いモデル」を選び、ChatGPTを直結。結果は高品質だが、平均応答8秒、1件あたり14円と高コスト。返品規定の参照先を時々誤り、カスタマーが混乱。KPIは“正答率”だけで、根拠提示や遅延を見ていませんでした。
やり直しでは次を実施。
- RAG化:社内FAQと規約をベクタDBに格納、プロンプトで根拠URL必須に。
- モデル分割:挨拶と意図分類は軽量モデル、規約回答はClaude、本体が失敗時はGeminiへフォールバック。
- 評価セット300件を作成、合格基準「根拠一致95%、禁句ゼロ、p95 3秒」。
- プロンプトキャッシュ導入、夜間はバッチで草稿生成し、有人最終承認。
結果、平均応答2.7秒、1件あたり4.3円(68%削減)。返品規定の誤案内は月15件→2件に低下。一次解決率は62%→81%。Microsoft 365連携が必要な社内ドキュメント要約はCopilotで処理し、社外返信はAPI系モデルに限定して情報漏えいリスクを分離しました。
RAGか微調整か、マルチモーダルの勘所
RAGと微調整の意思決定
- 知識が頻繁に更新→RAG優先(索引を毎日更新)。
- 文体/フォーマット厳格→少量LoRAで微調整(社内テンプレ500本)。
- 併用:RAGで事実、微調整で口調と構成を固定。
画像/表の取り扱い
- 請求書OCRや表の抽出はマルチモーダルLLMで下ごしらえ→表現規則は関数呼び出しで強制。
- 機密画像はオンプレでStable Diffusion系の加工を使い、外部転送を避ける。
運用の仕上げ
- レート制限は平常時の3倍で設計、429は指数バックオフ。異常系プロンプトはサーキットブレーカで遮断。
- モデル更新時はシャドー運用→A/B→全面切替。プロンプト差分と品質差を自動記録。
最終的に、モデルそのものより「評価データセット」「メトリクス」「ルーティング/監視」が資産になります。生成AIプラットフォーム事業では、これらを横断で共通化し、ChatGPTやClaude、Gemini、Copilotの強みをタスクごとに引き出せる土台を用意することが、スピードと安全性を同時に高める近道です。