このセッションで学ぶこと

1
LLMモデル動向マップ GPT-5/5.2, Claude Opus 4.5/4.6, Gemini 2.5/3 Pro, Llama 4, Mistral Large 3, Grok 4, DeepSeek R1など主要モデルの現在地と進化の方向を整理する
2
モデル選定の意思決定フレームワーク 用途、コスト、速度、精度の4軸で自社案件に最適なモデルを選ぶ判断基準を身につける
3
コストとレイテンシの定量評価 API料金の比較表とTTFT/TPSの概念を理解し、要件に合った見積もりができるようになる
4
運用ルールとマルチモデル戦略 バージョン固定、フォールバック、カスケード等の実務的な運用設計パターンを習得する

1. LLMモデル動向マップ 2025-2026

主要プロバイダーのモデルラインナップは半年単位で塗り替わる。ここでは2025年後半から2026年初頭にかけての状況を整理する。

主要モデル一覧と特性

プロバイダー モデル 強み Context Window 位置づけ
OpenAI GPT-5.2 Instant/Thinking/Proの3バリアント、90%キャッシュ割引 400K 汎用推奨
GPT-5 マルチモーダル、前世代の最上位 400K 高精度
Codex コーディング特化版 400K コード生成
Anthropic Claude Opus 4.6 最新最高精度、SWE-bench 74.4%相当 200K(1M extended可) プレミアム
Claude Sonnet 4.5 コスパ良好、速度と精度のバランス 200K(1M extended可) 汎用推奨
Claude Haiku 4.5 超高速、低コスト、大量処理向き 200K(1M extended可) 高速処理
Google Gemini 3 Pro 1Mコンテキスト、SWE-bench 74.2% 1M 高精度
Gemini 2.5 Flash / Flash-Lite 高速・低コスト、軽量タスク向き 1M 高速処理
Meta Llama 4(Scout / Maverick / Behemoth) MoEアーキテクチャ、ネイティブマルチモーダル、200言語対応、オープンウェイト Scout: 10M / Maverick: 400K 自社運用
Mistral Mistral Large 3 / Medium 3.1 41B active(675B total MoE)、欧州発、多言語対応 128K コスト重視
xAI Grok 4(標準 / Heavy) マルチエージェント推論(Heavy版)、1Mコンテキスト 1M 高度推論
DeepSeek DeepSeek R1 推論特化、オープンウェイト、高コスト効率 128K 推論特化

進化のタイムライン

2024年後半
GPT-4o登場でマルチモーダルが標準化。Claude 3.5 Sonnetがコード生成で高評価を獲得。Gemini 1.5 Proが100万トークンContext Windowで差別化
2025年前半
Llama 4が MoEアーキテクチャでリリース(Scout: 10Mコンテキスト)。GPT-5が登場しOpenAIの次世代ラインナップが始動。DeepSeek R1が推論特化OSSモデルとして注目を集める
2025年後半
Grok 4リリース、Heavy版でマルチエージェント推論を実現。Gemini 3 Proが1Mコンテキストで高精度化。GPT-5.2が3バリアント構成でリリース(2025年12月)。Mistral Large 3が675B MoEでコスト効率を追求
2026年初頭
Claude Opus 4.6がリリース(2026年2月5日)。SWE-benchでClaude Opus 4.5が74.4%を記録しコーディングトップ。各社のAgent対応モデルが実用段階に。マルチモデル運用が現場の標準に

2. モデル選定の意思決定フレームワーク

モデルを選ぶときに見るべき軸は4つある。用途、コスト、速度、精度。これらの優先順位は案件ごとに変わるが、意思決定の型は共通して使える。

4軸評価マトリクス

用途 重視する軸 推奨モデル例 理由
社内チャットボット コスト 速度 Claude Haiku 4.5 / Gemini 2.5 Flash 大量リクエスト対応が必要で、単価の安さと応答速度が最優先
コードレビュー補助 精度 速度 Claude Sonnet 4.5 / GPT-5.2 Thinking コードの正確な理解が必須。開発者の待ち時間を減らすため速度も重要
契約書レビュー 精度 安全性 Claude Opus 4.5 / GPT-5.2 Pro 法的文書はHallucinationが許されない。最高精度モデルで慎重に処理
大量データ分類 コスト 速度 Gemini 2.5 Flash-Lite / Claude Haiku 4.5 数十万件をバッチ処理するため、1件あたりの単価が決定的に効く
技術文書生成 精度 コスト Claude Sonnet 4.5 / Gemini 2.5 Pro 品質は要るが毎日使うので極端な高コストは避けたい
自社データ完結型 安全性 自由度 Llama 4 Maverick / Mistral Large 3 / DeepSeek R1(自社ホスト) データが外部に出せない場合、OSSモデルの自社デプロイが唯一の選択肢

選定フロー

要件ヒアリング
4軸の優先順位を決定
候補モデルを2-3個に絞る
PoC実施(実データで検証)
本番採用

PoCなしで本番導入したプロジェクトの半数以上が後からモデル変更を迫られる。最低でも実データ100件でのテスト評価は必須と考えるべき。

3. API料金比較

2026年2月時点でのおおよその料金帯。各社頻繁に改定するため、最新値は公式ドキュメントを必ず確認すること。

主要モデル Token単価(USD / 1M tokens)

モデル Input Output コスト帯 備考
GPT-5.2 $1.75 $14.00 90%キャッシュ割引、3バリアント構成
GPT-5 $1.25 $10.00 前世代最上位、安定運用向き
Claude Opus 4.6 / 4.5 $5.00 $25.00 Batch APIで50%割引、キャッシュで0.1x入力
Claude Sonnet 4.5 $3.00 $15.00 Extended Thinking対応、コスパ良好
Claude Haiku 4.5 $1.00 $5.00 大量処理向き、最速クラス
Gemini 3 Pro $2.00-$4.00 $12.00-$18.00 コンテキスト長で料金が変動
Gemini 2.5 Pro $1.25 $10.00 思考トークン含む場合は要注意
Mistral Large 3 $2.00 $5.00 675B MoE、コスト効率が高い
Mistral Medium 3.1 $0.40 $2.00 軽量タスク向き
Llama 4 / DeepSeek R1(自社運用) GPUコスト依存($1-3/h目安) 変動 オープンウェイト、利用量次第でクラウドAPIより安価に

コスト試算の具体例

シナリオ 月間処理量 Claude Opus 4.5 Claude Haiku 4.5 差額
社内FAQ応答 100万回(avg 500 in + 200 out tokens) 約$7,500/月 約$1,500/月 5倍の差
コードレビュー 1万回(avg 3K in + 1K out tokens) 約$400/月 約$80/月 5倍の差
文書要約 5千回(avg 10K in + 2K out tokens) 約$500/月 約$100/月 5倍の差

精度要件を満たすなら安いモデルを選ぶのが正解。「とりあえず最高性能モデル」は予算を食いつぶす典型的な失敗パターンになる。Batch APIやキャッシュ割引を活用すれば、同じモデルでもコストを大幅に圧縮できる。

4. レイテンシの理解 -- TTFT と TPS

ユーザー体験を決めるのは精度だけではない。応答が返ってくるまでの「待ち時間」が体感品質を左右する。レイテンシを理解するための2つの指標を押さえておく。

レイテンシ指標の解説

TTFT(Time To First Token)
  • 最初の1トークンが返るまでの時間
  • ユーザーが「反応した」と感じるまでの待ち時間
  • 目安: 0.3秒以下で快適、1秒超で遅延を感じる
  • プロンプトの長さに比例して伸びる
TPS(Tokens Per Second)
  • 1秒あたりに生成されるトークン数
  • テキストがストリーミング表示される速度
  • 目安: 30 TPS以上でスムーズに読める
  • モデルサイズと推論基盤で決まる
E2E Latency
  • リクエスト送信から全レスポンス完了まで
  • TTFT + (出力トークン数 / TPS) で概算
  • バッチ処理ではTPSよりスループットを重視
  • 同時接続数でも変動する

モデル別レイテンシ目安

モデル TTFT(目安) TPS(目安) 適合ユースケース
GPT-5.2 Instant 0.2 - 0.6秒 70 - 120 対話型、リアルタイム応答
GPT-5.2 Thinking 0.5 - 2.0秒 40 - 80 推論を要する複雑なタスク
Claude Sonnet 4.5 0.3 - 0.8秒 50 - 90 コード生成、文書処理
Claude Opus 4.5 / 4.6 0.8 - 2.5秒 30 - 50 高精度タスク(速度は犠牲)
Claude Haiku 4.5 0.1 - 0.4秒 100 - 150+ 大量バッチ処理、低レイテンシ必須
Gemini 3 Pro 0.4 - 1.5秒 50 - 90 高精度タスク、長文コンテキスト
Gemini 2.5 Flash 0.1 - 0.4秒 100 - 150+ リアルタイム処理、ストリーミング
Llama 4 Maverick(A100x2) 0.5 - 1.5秒 20 - 40 オンプレ環境、データ秘匿

思考モデル(GPT-5.2 Thinking, Gemini 3 Pro等)は内部で推論チェーンを生成するため、TTFT・TPSともに従来モデルより遅くなる傾向がある。ただし最終的な回答精度はその分高い。速度と精度のトレードオフを用途に応じて判断する必要がある。

5. デプロイメント形態の比較

モデルをどこで動かすかは、コスト構造とセキュリティ要件で決まる。3つの形態を比べる。

クラウドAPI
  • OpenAI / Anthropic / Google の直接API
  • 初期投資ゼロ、従量課金
  • 最新モデルに即座にアクセス可能
  • データが外部サーバーを通過する
  • レート制限あり(Tier管理)
マネージドサービス
  • Azure OpenAI / AWS Bedrock / Vertex AI
  • 企業向けSLA、コンプライアンス対応
  • VPC内でのデータ処理が可能
  • 既存クラウド契約に統合できる
  • API互換で移行が容易
オンプレミス / セルフホスト
  • Llama / Mistral等のOSSモデルをGPU上で運用
  • データが一切外部に出ない
  • 初期投資大(GPU調達)、運用コスト固定
  • モデル更新は手動
  • 推論基盤の構築・運用スキル必須

判断フロー

データを外部に出せるか?
NO: オンプレ / VPC内マネージド
データを外部に出せるか?
YES: エンタープライズSLAが要るか?
YES: マネージド / NO: クラウドAPI

6. モデル運用ルール策定チェックリスト

モデルを導入した後に問題が起きるのは、運用ルールを決めていなかったケースがほとんど。導入前に下記を潰しておく。

バージョン固定 -- モデルバージョンを明示的に指定する(gpt-5.2-2025-12-10 のように日付指定)。latestは本番環境で使わない
フォールバック設計 -- 主モデルがダウンしたときの代替モデルと切り替え条件を事前に定義する
コスト上限(Budget Cap) -- 月額上限を設定し、超過時のアラートと自動停止ルールを用意する
レート制限管理 -- APIのTPM/RPM上限を把握し、リトライ戦略(指数バックオフ)を実装する
ログ記録 -- プロンプトとレスポンスのログを保存し、品質監視とコスト分析に活用する
プロンプト管理 -- System Promptをコード外で管理し、バージョン管理する。PromptOpsの仕組みを導入する
出力検証 -- LLMの出力を無条件で信用しない。構造化出力(JSON mode等)の活用とバリデーションを組み込む
セキュリティポリシー -- 機密情報のプロンプト混入防止、PII検出フィルター、データ保持ポリシーを明文化する
モデル移行計画 -- 主要モデルのDeprecation通知に備え、切り替え手順と評価基準を先に決めておく
評価基準の定量化 -- 導入前に成功指標(精度、レイテンシ、ユーザー満足度等)を数値で定義する

7. マルチモデル戦略

1つのモデルに全てを任せる時代は終わった。用途や負荷に応じてモデルを使い分ける戦略が主流になりつつある。代表的な3パターンを解説する。

Routing(振り分け)
入力
Router(分類器)
簡単な質問 → 軽量モデル
複雑な質問 → 高精度モデル
Cascade(段階処理)
入力
軽量モデルで処理
信頼度低?
高精度モデルで再処理
Ensemble(合議)
入力
モデルA
+
モデルB
結果を統合・多数決

戦略別の特徴比較

戦略 コスト効率 実装難度 精度向上 適用場面
Routing 高い 多様な問い合わせが混在するチャットボット
Cascade 高い 高い 大半が簡単だが稀に難しいケースがある処理
Ensemble 低い 高い 最高 ミスが許されない重要判定(契約審査等)

8. カスタマイズ手法の使い分け

LLMの出力を自社用途に最適化する方法は3つある。安易にFine-tuningに飛びつくのはアンチパターン。まずPrompt Engineeringから始めて、それでも足りなければRAG、それでもダメならFine-tuningという順で検討する。

3手法の比較

観点 Prompt Engineering RAG Fine-tuning
導入コスト
データ準備 不要 文書の収集・前処理 高品質な学習データセット数百件以上
知識の鮮度 プロンプト更新で即反映 文書更新で即反映 再学習が必要
得意なこと 出力形式の制御、トーン調整 社内固有情報の参照、根拠付き回答 特殊な文体、ドメイン特化の振る舞い
弱点 Context Windowの制約 検索精度に依存、構築コスト 学習コスト大、過学習リスク
推奨場面 PoC段階、小規模利用 社内ナレッジ活用、ドキュメント検索 大量処理で一貫した品質が必要

判断フロー

LLMの出力を改善したい
Prompt改善で解決する?
YES → Prompt Engineeringで対応
NO → 外部知識が必要?
YES → RAGを構築
NO → Fine-tuningを検討

実務では Prompt Engineering + RAG の組み合わせで8割のケースをカバーできる。Fine-tuningが必要なのは、独自の文体や業界特有の表現が厳密に求められる場合に限られることが多い。

用語集

LLM(Large Language Model)
大量のテキストデータで事前学習された大規模言語モデル。GPT-5.2、Claude Opus 4.6、Gemini 3 Proなどが代表例。テキスト生成、要約、翻訳、コード生成など多様なタスクをこなす。
Token
LLMがテキストを処理する最小単位。英語では1単語が約1.3トークン、日本語では1文字が約1-3トークンに相当する。API料金はトークン数に基づいて課金される。
TTFT(Time To First Token)
APIリクエスト送信から最初のトークンが返るまでの時間。ストリーミング表示時にユーザーが最初の文字を見るまでの待ち時間に直結する。
TPS(Tokens Per Second)
1秒あたりに生成されるトークン数。テキストがストリーミングで表示される速度を決める指標。30 TPS以上あれば読みやすい速度で表示される。
Fine-tuning
事前学習済みモデルに追加の学習データを投入して、特定タスクに特化させる手法。高品質な学習データの準備と計算コストが必要になる。
Prompt Engineering
モデルへの指示文(プロンプト)を工夫して出力品質を向上させる技術。System Prompt、Few-shot例示、Chain of Thought等の手法がある。最もコストが低い最適化手段。
RAG(Retrieval-Augmented Generation)
外部知識ベースから関連情報を検索し、プロンプトに注入してからLLMに回答を生成させる手法。社内情報の活用やHallucination抑制に有効。
Temperature
LLMの出力のランダム性を制御するパラメータ。0に近いほど決定的な出力、1に近いほど多様な出力になる。分類タスクは低め、創作は高めに設定するのが一般的。
Context Window
モデルが一度に処理できるトークン数の上限。入力プロンプトと出力の合計がこの範囲に収まる必要がある。GPT-5.2は400K、Gemini 3 Proは1M、Llama 4 Scoutは10Mなどモデルによって大きく異なる。
Embedding
テキストを高次元の数値ベクトルに変換する処理。意味的に近いテキストは近いベクトルになる性質を利用して、類似文書の検索やクラスタリングに使う。
Hallucination
LLMが事実に基づかない情報をもっともらしく生成してしまう現象。RAGによる根拠付与やSelf-consistency checkなどの対策が必要になる。

参考URL一覧

OpenAI Platform Documentationplatform.openai.com OpenAI Models Overview -- モデル一覧と仕様platform.openai.com OpenAI API Pricing -- 最新の料金表openai.com Anthropic Documentationdocs.anthropic.com Claude Models -- モデル比較と選び方docs.anthropic.com Google AI for Developers -- Gemini API ドキュメントai.google.dev Gemini Models -- モデル仕様と料金ai.google.dev Meta Llama -- オープンソースモデルの公式サイトllama.meta.com Mistral AI Documentationdocs.mistral.ai xAI Grok Documentationdocs.x.ai DeepSeek API Documentationapi-docs.deepseek.com Azure OpenAI Service ドキュメントlearn.microsoft.com AWS Bedrock Documentationdocs.aws.amazon.com Google Cloud Vertex AI Documentationcloud.google.com