このセッションで学ぶこと

1
LLMモデル動向マップ GPT-5/5.2, Claude Opus 4.5/4.6, Gemini 2.5/3 Pro, Llama 4, Mistral Large 3, Grok 4, DeepSeek R1など主要モデルの現在地と進化の方向を整理します
2
モデル選定の意思決定フレームワーク 用途、コスト、速度、精度の4軸で自社案件に最適なモデルを選ぶ判断基準を身につけます
3
コストとレイテンシの定量評価 API料金の比較表とTTFT/TPSの概念を理解し、要件に合った見積もりができるようになります
4
運用ルールとマルチモデル戦略 バージョン固定、フォールバック、カスケード等の実務的な運用設計パターンを習得します

1. LLMモデル動向マップ 2025-2026

主要プロバイダーのモデルラインナップは半年単位で塗り替わります。ここでは2025年後半から2026年初頭にかけての状況を整理します。

主要モデル一覧と特性

プロバイダー モデル リリース日 強み Context Window 位置づけ
OpenAI GPT-5.2 2025年12月 Instant/Thinking/Proの3バリアント、90%キャッシュ割引 400K 汎用推奨
GPT-5 2025年8月 マルチモーダル、前世代の最上位 400K 高精度
Codex 2025年5月 コーディング特化版 400K コード生成
Anthropic Claude Opus 4.6 2026年2月 最新最高精度、[SWE-bench] Verified 80.8% 200K(1M extended可) プレミアム
Claude Sonnet 4.6 2026年2月 SWE-bench Verified 79.6%(Opus 4.6比1.2%差)、初の1Mコンテキスト対応Sonnet、コンピュータ使用大幅改善 1M (beta) 汎用推奨
Claude Haiku 4.5 2025年10月 超高速、低コスト、大量処理向き 200K 高速処理
Google Gemini 3 Pro 2025年11月 1Mコンテキスト、[SWE-bench] Verified 76.2% 1M 高精度
Gemini 2.5 Flash / Flash-Lite 2025年9月 高速・低コスト、軽量タスク向き 1M 高速処理
Meta Llama 4(Scout / Maverick / Behemoth) 2025年4月 MoEアーキテクチャ、ネイティブマルチモーダル、200言語対応、オープンウェイト Scout: 10M / Maverick: 400K 自社運用
Mistral Mistral Large 3 / Medium 3.1 2025年9月 41B active(675B total MoE)、欧州発、多言語対応 128K コスト重視
xAI Grok 4(標準 / Heavy) 2025年7月 マルチエージェント推論(Heavy版)、1Mコンテキスト 1M 高度推論
DeepSeek DeepSeek R1 / V3.2 2025年1月 / 2026年初頭 R1: 推論特化OSS。V3.2: 685B(37B active)MoE、128K、高コスト効率 128K 推論特化

進化のタイムライン

2024年後半
GPT-4o登場でマルチモーダルが標準化しました。Claude 3.5 Sonnetがコード生成で高評価を獲得。Gemini 1.5 Proが100万トークンContext Windowで差別化を図りました
2025年前半
DeepSeek R1が推論特化OSSモデルとして注目を集めました(1月)。Llama 4がMoEアーキテクチャでリリース(4月、Scout: 10Mコンテキスト)。GPT-5が8月に登場し、OpenAIの次世代ラインナップが始動しました
2025年後半
Grok 4リリース(7月)、Heavy版でマルチエージェント推論を実現しました。Claude Sonnet 4.5(9月)、Claude Haiku 4.5(10月)、Claude Opus 4.5(11月、SWE-bench 80.9%)が連続リリース。Gemini 3 Proが11月に1Mコンテキストで高精度化しました。GPT-5.2が3バリアント構成でリリース(12月)
2026年初頭
Claude Opus 4.6がリリース(2月5日、SWE-bench 80.8%、Agent Teams搭載)。Claude Sonnet 4.6がリリース(2月17日、SWE-bench 79.6%、初の1Mコンテキスト対応Sonnet)。Sonnet 4.6はOpus 4.6比で1/5のコストながら旧世代Opusを59%の確率で上回る評価を獲得しています。各社のAgent対応モデルが実用段階に入り、マルチモデル運用が現場の標準になりつつあります

2. モデル選定の意思決定フレームワーク

モデルを選ぶときに見るべき軸は4つあります。用途、コスト、速度、精度。これらの優先順位は案件ごとに変わりますが、意思決定の型は共通して使えます。

4軸評価マトリクス

用途 重視する軸 推奨モデル例 理由
社内チャットボット コスト 速度 Claude Haiku 4.5 / Gemini 2.5 Flash 大量リクエスト対応が必要で、単価の安さと応答速度が最優先です
コードレビュー補助 精度 速度 Claude Sonnet 4.6 / GPT-5.2 Thinking コードの正確な理解が必須です。開発者の待ち時間を減らすため速度も重要です
契約書レビュー 精度 安全性 Claude Opus 4.6 / GPT-5.2 Pro 法的文書はHallucinationが許されません。最高精度モデルで慎重に処理します
大量データ分類 コスト 速度 Gemini 2.5 Flash-Lite / Claude Haiku 4.5 数十万件をバッチ処理するため、1件あたりの単価が決定的に効きます
技術文書生成 精度 コスト Claude Sonnet 4.6 / Gemini 2.5 Pro 品質は要りますが毎日使うので極端な高コストは避けたいところです
自社データ完結型 安全性 自由度 Llama 4 Maverick / Mistral Large 3 / DeepSeek R1(自社ホスト) データが外部に出せない場合、OSSモデルの自社デプロイが唯一の選択肢です

選定フロー

要件ヒアリング
4軸の優先順位を決定
候補モデルを2-3個に絞る
PoC実施(実データで検証)
本番採用

PoCなしで本番導入したプロジェクトの半数以上が後からモデル変更を迫られます。最低でも実データ100件でのテスト評価は必須と考えるべきです。

3. API料金比較

2026年2月時点でのおおよその料金帯です。各社頻繁に改定するため、最新値は公式ドキュメントを必ず確認してください。

主要モデル Token単価(USD / 1M tokens)

料金テーブルを表示
モデル Input Output コスト帯 備考
GPT-5.2 $1.75 $14.00 90%キャッシュ割引、3バリアント構成[価格]
GPT-5 $1.25 $10.00 前世代最上位、安定運用向き[価格]
Claude Opus 4.6 / 4.5 $5.00 $25.00 Batch APIで50%割引、キャッシュで0.1x入力[価格]
Claude Sonnet 4.6 $3.00 $15.00 Extended Thinking対応、コスパ良好[価格]
Claude Haiku 4.5 $1.00 $5.00 大量処理向き、最速クラス[価格]
Gemini 3 Pro $2.00-$4.00 $12.00-$18.00 コンテキスト長で料金が変動[価格]
Gemini 2.5 Pro $1.25 $10.00 思考トークン含む場合は要注意[価格]
Mistral Large 3 $2.00 $5.00 675B MoE、コスト効率が高い[価格]
Mistral Medium 3.1 $0.40 $2.00 軽量タスク向き[価格]
Llama 4 / DeepSeek R1(自社運用) GPUコスト依存($1-3/h目安) 変動 オープンウェイト、利用量次第でクラウドAPIより安価に

コスト試算の具体例

コスト試算を表示
シナリオ 月間処理量 Claude Opus 4.6 Claude Haiku 4.5 差額
社内FAQ応答 100万回(avg 500 in + 200 out tokens) 約$7,500/月 約$1,500/月 5倍の差
コードレビュー 1万回(avg 3K in + 1K out tokens) 約$400/月 約$80/月 5倍の差
文書要約 5千回(avg 10K in + 2K out tokens) 約$500/月 約$100/月 5倍の差

精度要件を満たすなら安いモデルを選ぶのが正解です。「とりあえず最高性能モデル」は予算を食いつぶす典型的な失敗パターンになります。Batch APIやキャッシュ割引を活用すれば、同じモデルでもコストを大幅に圧縮できます。

4. レイテンシの理解 -- TTFT と TPS

ユーザー体験を決めるのは精度だけではありません。応答が返ってくるまでの「待ち時間」が体感品質を左右します。レイテンシを理解するための2つの指標を押さえておきましょう。

レイテンシ指標の解説

レイテンシ3指標
TTFT(Time To First Token)
  • 最初の1トークンが返るまでの時間です
  • ユーザーが「反応した」と感じるまでの待ち時間になります
  • 目安: 0.3秒以下で快適、1秒超で遅延を感じます
  • プロンプトの長さに比例して伸びます
TPS(Tokens Per Second)
  • 1秒あたりに生成されるトークン数です
  • テキストがストリーミング表示される速度を表します
  • 目安: 30 TPS以上でスムーズに読めます
  • モデルサイズと推論基盤で決まります
E2E Latency
  • リクエスト送信から全レスポンス完了までの時間です
  • TTFT + (出力トークン数 / TPS) で概算できます
  • バッチ処理ではTPSよりスループットを重視します
  • 同時接続数でも変動します

モデル別レイテンシ目安

モデル TTFT(目安) TPS(目安) 適合ユースケース
GPT-5.2 Instant 0.2 - 0.6秒 70 - 120 対話型、リアルタイム応答
GPT-5.2 Thinking 0.5 - 2.0秒 40 - 80 推論を要する複雑なタスク
Claude Sonnet 4.6 0.3 - 0.8秒 50 - 90 コード生成、文書処理
Claude Opus 4.6 0.8 - 2.5秒 30 - 50 高精度タスク(速度は犠牲)
Claude Haiku 4.5 0.1 - 0.4秒 100 - 150+ 大量バッチ処理、低レイテンシ必須
Gemini 3 Pro 0.4 - 1.5秒 50 - 90 高精度タスク、長文コンテキスト
Gemini 2.5 Flash 0.1 - 0.4秒 100 - 150+ リアルタイム処理、ストリーミング
Llama 4 Maverick(A100x2) 0.5 - 1.5秒 20 - 40 オンプレ環境、データ秘匿

思考モデル(GPT-5.2 Thinking, Gemini 3 Pro等)は内部で推論チェーンを生成するため、TTFT・TPSともに従来モデルより遅くなる傾向があります。ただし最終的な回答精度はその分高くなります。速度と精度のトレードオフを用途に応じて判断する必要があります。

5. デプロイメント形態の比較

モデルをどこで動かすかは、コスト構造とセキュリティ要件で決まります。3つの形態を比較します。

3つのデプロイメント形態
クラウドAPI
  • OpenAI / Anthropic / Google の直接APIです
  • 初期投資ゼロ、従量課金で始められます
  • 最新モデルに即座にアクセスできます
  • データが外部サーバーを通過します
  • レート制限があります(Tier管理)
マネージドサービス
  • Azure OpenAI / AWS Bedrock / Vertex AI が該当します
  • 企業向けSLA、コンプライアンスに対応しています
  • VPC内でのデータ処理が可能です
  • 既存クラウド契約に統合できます
  • API互換で移行が容易です
オンプレミス / セルフホスト
  • Llama / Mistral等のOSSモデルをGPU上で運用します
  • データが一切外部に出ません
  • 初期投資大(GPU調達)、運用コストは固定です
  • モデル更新は手動になります
  • 推論基盤の構築・運用スキルが必須です

判断フロー

データを外部に出せるか?
NO: オンプレ / VPC内マネージド
データを外部に出せるか?
YES: エンタープライズSLAが要るか?
YES: マネージド / NO: クラウドAPI

6. モデル運用ルール策定チェックリスト

モデルを導入した後に問題が起きるのは、運用ルールを決めていなかったケースがほとんどです。導入前に下記を潰しておきましょう。

バージョン固定 -- モデルバージョンを明示的に指定します(gpt-5.2-2025-12-10 のように日付指定)。latestは本番環境で使いません
フォールバック設計 -- 主モデルがダウンしたときの代替モデルと切り替え条件を事前に定義します
コスト上限(Budget Cap) -- 月額上限を設定し、超過時のアラートと自動停止ルールを用意します
レート制限管理 -- APIのTPM/RPM上限を把握し、リトライ戦略(指数バックオフ)を実装します
ログ記録 -- プロンプトとレスポンスのログを保存し、品質監視とコスト分析に活用します
プロンプト管理 -- System Promptをコード外で管理し、バージョン管理します。PromptOpsの仕組みを導入します
出力検証 -- LLMの出力を無条件で信用しません。構造化出力(JSON mode等)の活用とバリデーションを組み込みます
セキュリティポリシー -- 機密情報のプロンプト混入防止、PII検出フィルター、データ保持ポリシーを明文化します
モデル移行計画 -- 主要モデルのDeprecation通知に備え、切り替え手順と評価基準を先に決めておきます
評価基準の定量化 -- 導入前に成功指標(精度、レイテンシ、ユーザー満足度等)を数値で定義します

7. マルチモデル戦略

1つのモデルに全てを任せる時代は終わりました。用途や負荷に応じてモデルを使い分ける戦略が主流になりつつあります。代表的な3パターンを解説します。

Routing
振り分け
入力
Router
分類器
簡単 → Haiku / Flash(軽量)
複雑 → Opus / GPT-5.2(高精度)
Cascade
段階処理
入力
軽量モデルで処理
信頼度低?
高精度モデルで再処理
Ensemble
合議
入力
モデルA(Claude)
モデルB(GPT)
結果を統合・多数決

戦略別の特徴比較

戦略 コスト効率 実装難度 精度向上 適用場面
Routing 高い 多様な問い合わせが混在するチャットボット
Cascade 高い 高い 大半が簡単だが稀に難しいケースがある処理
Ensemble 低い 高い 最高 ミスが許されない重要判定(契約審査等)

8. カスタマイズ手法の使い分け

LLMの出力を自社用途に最適化する方法は3つあります。安易にFine-tuningに飛びつくのはアンチパターンです。まずPrompt Engineeringから始めて、それでも足りなければRAG、それでもダメならFine-tuningという順で検討してください。

3手法の比較

観点 Prompt Engineering RAG Fine-tuning
導入コスト
データ準備 不要 文書の収集・前処理 高品質な学習データセット数百件以上
知識の鮮度 プロンプト更新で即反映 文書更新で即反映 再学習が必要
得意なこと 出力形式の制御、トーン調整 社内固有情報の参照、根拠付き回答 特殊な文体、ドメイン特化の振る舞い
弱点 Context Windowの制約 検索精度に依存、構築コスト 学習コスト大、過学習リスク
推奨場面 PoC段階、小規模利用 社内ナレッジ活用、ドキュメント検索 大量処理で一貫した品質が必要

判断フロー

Q1
Prompt改善で解決しますか?
YES → Prompt Engineeringで対応(コスト最小、即日開始可能)
Q2
社内文書や外部知識の参照が必要ですか?
YES → RAGを構築(文書前処理+ベクトルDB、1-4週間で構築可能)
Q3
特殊な文体やドメイン特化の振る舞いが必要ですか?
YES → Fine-tuningを検討(学習データ数百件以上、コスト高、最終手段)

実務では Prompt Engineering + RAG の組み合わせで多くのケースに対応できます。Fine-tuningが必要なのは、独自の文体や業界特有の表現が厳密に求められる場合に限られることが多いです。

用語集

LLM(Large Language Model)
大量のテキストデータで事前学習された大規模言語モデルです。GPT-5.2、Claude Opus 4.6、Gemini 3 Proなどが代表例です。テキスト生成、要約、翻訳、コード生成など多様なタスクをこなせます。
Token
LLMがテキストを処理する最小単位です。英語では1単語が約1.3トークン、日本語では1文字が約1-3トークンに相当します。API料金はトークン数に基づいて課金されます。
TTFT(Time To First Token)
APIリクエスト送信から最初のトークンが返るまでの時間です。ストリーミング表示時にユーザーが最初の文字を見るまでの待ち時間に直結します。
TPS(Tokens Per Second)
1秒あたりに生成されるトークン数です。テキストがストリーミングで表示される速度を決める指標で、30 TPS以上あれば読みやすい速度で表示されます。
Fine-tuning
事前学習済みモデルに追加の学習データを投入して、特定タスクに特化させる手法です。高品質な学習データの準備と計算コストが必要になります。
Prompt Engineering
モデルへの指示文(プロンプト)を工夫して出力品質を向上させる技術です。System Prompt、Few-shot例示、Chain of Thought等の手法があります。最もコストが低い最適化手段です。
RAG(Retrieval-Augmented Generation)
外部知識ベースから関連情報を検索し、プロンプトに注入してからLLMに回答を生成させる手法です。社内情報の活用やHallucination抑制に有効です。
Temperature
LLMの出力のランダム性を制御するパラメータです。0に近いほど決定的な出力、1に近いほど多様な出力になります。分類タスクは低め、創作は高めに設定するのが一般的です。
Context Window
モデルが一度に処理できるトークン数の上限です。入力プロンプトと出力の合計がこの範囲に収まる必要があります。GPT-5.2は400K、Gemini 3 Proは1M、Llama 4 Scoutは10Mなどモデルによって大きく異なります。
Embedding
テキストを高次元の数値ベクトルに変換する処理です。意味的に近いテキストは近いベクトルになる性質を利用して、類似文書の検索やクラスタリングに使います。
Hallucination
LLMが事実に基づかない情報をもっともらしく生成してしまう現象です。RAGによる根拠付与やSelf-consistency checkなどの対策が必要になります。

参考URL一覧

OpenAI Platform Documentationplatform.openai.com OpenAI Models Overview -- モデル一覧と仕様platform.openai.com OpenAI API Pricing -- 最新の料金表openai.com Anthropic Documentationdocs.anthropic.com Claude Models -- モデル比較と選び方docs.anthropic.com Google AI for Developers -- Gemini API ドキュメントai.google.dev Gemini Models -- モデル仕様と料金ai.google.dev Meta Llama -- オープンソースモデルの公式サイトllama.meta.com Mistral AI Documentationdocs.mistral.ai xAI Grok Documentationdocs.x.ai DeepSeek API Documentationapi-docs.deepseek.com Azure OpenAI Service ドキュメントlearn.microsoft.com AWS Bedrock Documentationdocs.aws.amazon.com Google Cloud Vertex AI Documentationcloud.google.com