📚 全体地図を見る
GPT・Claude・Gemini・Grok ― クローズド4社の技術戦略はどう違うのか
「最近のモデル、どれも似てませんか?」
最近この質問をよく受けます。
GPQA Diamond 94%台、MMLU 90%台、コーディングもSWE-benchで軒並み80%超。数字を横並びにすると、そう見えるのは無理もありません。上位層の差はほぼ消えた と言っていい状態です。
ところが、同じ数字の下で、4社はまったく別の方向に走っています。
- OpenAI は ツール・エージェント・インフラの会社 になろうとしている
- Anthropic は 安全・憲法の会社 であり続けようとしている
- Google は マルチモーダル・自社チップ・2Mコンテキストの会社
- xAI は pretraining-scale RL の会社
この記事は「どこが一番賢いか」という問いではありません。エンジニアリングの粒度で何が違うのか を4つに切り分けて見るための記事です。
クローズド(closed)という言い方をする理由も後で触れます。xAI のGrokは2024-03の Grok-1 だけがApache 2.0で重みが公開されていますが、その後の Grok 2・3・4・4.1・4.20 は すべてAPI専用のクローズド です。「オープンに見えるけどオープンじゃない」ポジションなんです。
順番はこうです。
- 4社を一枚で並べる
- OpenAI = ツール・エージェント・インフラ
- Anthropic = 安全・憲法
- Google = マルチモーダル・インフラ・自社チップ
- xAI = pretraining-scale RL + クローズド
- ベンチ収束 → 分岐点は別のベンチへ移った
- 価格戦争 ― 超低価格 vs Pro プレミアム
- FAQ
1. 4社を一枚で並べる (2026-04 時点)
| Lab | Flagship | $/1M in・out | Context | 主な指標 |
|---|---|---|---|---|
| OpenAI | GPT-5.4 | $2.50 / $15 (Pro $30 / $180) | 1.05M (>272K 2x/1.5x) | OSWorld 75% ・ Codex |
| Anthropic | Opus 4.7 | $5 / $25 (Sonnet $3/$15) | 1M | SWE-bench Verified 87.6% |
| Gemini 3.1 Pro | $2 / $12 (>200K $4/$18) | 2M | MMMU-Pro 81% ・ Deep Think GPQA 93.8% | |
| xAI | Grok 4.20 | $2 / $6 (4.1 Fast $0.20/$0.50) | 2M | 4-agent ・ GPQA 88% |
この表だけでも、価格帯とコンテキスト設計が4社ばらばらなのが見えます。ここからが本題です。
2. OpenAI = ツール・エージェント・インフラの会社
GPT-5.4 を「モデル」とだけ見ていると、OpenAI の戦略を読み落とします。この1年 OpenAI が押し込んできたのは モデルではなく、モデルを取り巻く OS レイヤ です。
価格構造に戦略が埋まっている
GPT-5.4 は入力 $2.50 / 出力 $15。ただし 272K トークンを超えた瞬間、入力は 2 倍、出力は 1.5 倍に跳ねる区分課金 が入ります。1.05M コンテキストを「提供はするが、コストでスロットリングをかけている」構造です。
一方で mini は $0.75 / $4.50、nano は $1 以下、Pro は $30 / $180。帯域が 50 倍以上開いた ラインアップ。これは「1つのモデルが全部やる」ではなく「ツール側がモデルを自動で選ぶ」という設計思想です。
Computer use・Codex・tool search
エンジニア視点で見ないと差が見えない部分はここです。
- Computer use (OSWorld 75%): ブラウザ・ファイルシステム・OS UI をモデルが直接操作。これはモデルだけでは動きません。スクリーンショットパイプライン、座標正規化、アクション安全検証までを含めた インフラの束 です。
- Codex 統合: エージェントがリポジトリ上で長時間作業する際に必要な harness を OpenAI 自身が提供。
- Tool search / conversation compaction: ツールが増えると選択コストが爆発する問題を、モデルの外側にある検索レイヤで解いた。
Anthropic が「モデル品質」で勝負しているとすれば、OpenAI は「モデルを包む OS」で勝負しています。同じ GPT-5.4 を使っていても、System Card Update が 5.1 → 5.2 → 5.3 と増分公開される形で進んでいるのもこの戦略と一致しています。モデルリリースより、インフラ更新のほうが頻繁です。
エンジニアリングで読むと
訓練方法は非公開。公式論文もなく、重みもなく、パラメータ数も「公開しない」 です。その代わり OpenAI が公開するのは System Card・Pricing・Tool 周辺のドキュメント。外から見える戦略は「モデルの中身は開かない。プラットフォームを開く」に揃えられています。
3. Anthropic = 安全・憲法の会社
Anthropic は逆に、方法論を一番開いているラボ です。重みは開かないが、訓練・アライメントの フレームワーク は文書で公開しています。
Constitutional AI / RLAIF
Claude 系列が「Constitutional AI」という方法論の上に立っているのは 2022 年から公開された事実で、2026-01 には Constitution 改訂版がアップデート として公開されました。核は RLAIF (Reinforcement Learning from AI Feedback) ― 人間がすべてのペアを評価するのではなく、憲法に沿ってモデルが self-critique しながら整えていきます。
比較ポイント:
– OpenAI のアライメント方法は具体パイプラインが非公開。
– xAI は model card で RL が訓練予算の約 50% と数字まで出すが、「何のために最適化するか」の上位フレームは Anthropic ほど構造化されていない。
SWE-bench Verified 87.6%
Opus 4.7 が一番説明しやすいのはコーディングです。SWE-bench Verified 87.6% は現時点公開トップ。なぜ Anthropic がコーディングに強いのかの公式説明はありませんが、憲法ベースのアライメントが「長時間の作業を途中で放棄しない行動規範」と相性がいい という業界分析があります。(公式非公開・業界解釈)
Project Glasswing
2026 年に入って Anthropic が強調している新しいレイヤが Project Glasswing ― モデル内部のアクティベーションを観測・制御する安全機構 です。具体実装は非公開ですが、System Card で言及される方向性ははっきりしています。
エンジニアリングで読むと
Anthropic は「なぜ・どうアライメントするかを文書で公開する。モデル内部の数値は公開しない」。価格もシンプル ― Opus $5/$25、Sonnet $3/$15、Haiku $1/$5。ティアは 3 段、コンテキスト課金トリックなし。価格構造そのものが「モデルティアで売る」というメッセージです。
4. Google = マルチモーダル・インフラ・自社チップの会社
Gemini 3.1 Pro を一言で要約すると「インフラで勝つ」です。
2M コンテキストと区分課金
コンテキスト 2M は現時点公開の最大値。課金構造も透明です ― ≤200K $2/$12、>200K $4/$18。OpenAI のように「1M まで出すが 272K から跳ね上がる」ではなく、単純な 2 区分。エンジニアから見ると 予算計算がすっきり します。
マルチモーダル1位
- MMMU-Pro 81% (マルチモーダル推論)
- ScreenSpot-Pro 72.7% (ビジョン GUI 理解 1 位)
- LMArena Elo 1501
ScreenSpot-Pro は特に意味が大きい指標です。OpenAI の Computer use が「スクリーンショット + アクション」パイプライン全体の強みだとすれば、Gemini は 「スクリーンショットの理解」そのもの で先行している。今後のエージェント GUI 分岐で決定的な優位になり得る数字です。
Deep Think
Gemini 3.1 Pro には別個の推論集中モード Deep Think が付きます。GPQA Diamond 93.8%。これは「長く考えさせればスコアが上がる」を公式プロダクト化した形で、OpenAI o-series や Anthropic の extended thinking と方向性は同じですが、Google はこれをコンテキスト・マルチモーダルと束ねて売って います。
自社チップ (TPU)
最も構造的な差は訓練・サービングインフラです。OpenAI・Anthropic は NVIDIA H100/H200/B200 に依存しています。Google は TPU を自社設計・運用。これが価格構造の土台です ― 2M コンテキストを $2/$12 で売って利益を出せる理由は、ハードウェアスタックまで垂直統合されているからです。
エンジニアリングで読むと
Google のメッセージは「ハードウェア・コンテキスト・マルチモーダル の3軸 で売る」。3つとも、他ラボが追いつきにくい。TPU は一朝一夕には作れないし、2M はインフラなしでは売れないし、マルチモーダルデータセットも数年単位の積み上げの結果なんです。
5. xAI = pretraining-scale RL + クローズド
ここが 2026 年に最も「おもしろくて過小評価されている」ラボです。
Grok は「オープン」ではない
先に訂正を。Grok-1 は 2024-03 に Apache 2.0 で重みが公開されました。その後の Grok 2, 3, 4, 4.1, 4.20 はすべて重み非公開・API 専用です。 「Grok ってオープンソースじゃないの?」と聞かれることがあるんですが、2024-03 のあの一回以降は違います。xAI は 完全にクローズドなラボ です。
Colossus と RL 予算 50%
2025-08-20 に公開された Grok 4 model card には、かなり強い数字が書いてあります。
- Colossus クラスタ: 約 30 万 GPU (業界最大級)
- RL が訓練予算全体の約 50% ― 一般的な「pretraining 90% + RLHF 少し」の式を逆にした比率
なぜ意味があるかというと、これまでの LLM 訓練の式は 「巨大 pretraining → 小規模な RLHF アライメント」 でした。xAI はこの比率を半分ひっくり返し、RL 自体を pretraining と同格のスケールで 回しています。model card 自身が明言した戦略です。
4-agent アーキテクチャがモデル自体に組み込まれている
Grok 4 のもうひとつの特徴 ― 4 体のエージェントが並列に回答を生成して合議する 構造がモデルレベルに組み込まれています。普通の LLM は「推論チェーン1本」を出しますが、Grok 4 は内部で4本走って1本が出てくる。GPQA 88% の数字の裏にはこの構造があります。
X のリアルタイム統合 ・ knowledge cutoff 2024-11
- X(Twitter) のリアルタイム検索が標準搭載 ― 他ラボが別ツールとして接続する必要のあるものを、xAI は「X を自前で持っている」で解決。
- knowledge cutoff は 2024-11 ― 他のフラグシップより古い。でもリアルタイム X があるので大きな問題ではない、というポジション。
価格: 最も攻撃的
- Grok 4.20: $2 / $6 ― GPT-5.4 入力同価・出力半額
- Grok 4.1 Fast: $0.20 / $0.50 ― ほぼ Haiku・nano 帯
「低価格 + pretrain-RL + リアルタイム X」で メディア・ソーシャル系ワークロード に最適化されたラボとして読むのが正しい。汎用品質で Opus や Gemini を抜こうとしている戦略ではありません。
エンジニアリングで読むと
「我々は RL を pretraining スケールで回せる唯一のラボだ。そして X という独占データソースがある」。重みは開かない。Grok-1 だけ開けて、以降はすべて API。
6. ベンチ収束 → 分岐点は別のベンチへ移った
| Lab | 向かう方向 | 表れている指標 |
|---|---|---|
| OpenAI | ツール・エージェント OS レイヤ | OSWorld 75% ・ Computer use ・ Codex |
| Anthropic | 安全・憲法・コーディング整合 | SWE-bench 87.6% ・ Constitution ・ Glasswing |
| マルチモーダル ・ 2M ・ 自社チップ | MMMU-Pro 81% ・ ScreenSpot 72.7% ・ TPU | |
| xAI | pretraining-scale RL ・ X データ | RL 予算 50% ・ 4-agent ・ Colossus 300K GPU |
GPQA Diamond だけを見てみます。2026-04 時点:
- Opus 4.7: 94.2%
- GPT-5.4 Pro: 94.4%
- Gemini 3.1 Pro (Deep Think): 93.8% (標準モードは別の数値)
- Grok 4.20: 88%
上位3つは 小数点の差 です。これだと、一般実務で「どっちが賢いか」という問い自体が意味を失う水準に来ています。
だから 本当に差が出るベンチ は何か、が重要になります。
- SWE-bench Verified: 長時間のコーディングワークフロー。Opus 4.7 が 87.6% で 1 位。コーディングエージェントでは Anthropic がいまだ優位。
- OSWorld: OS レベルの computer use。GPT-5.4 が 75% で 1 位。画面操作エージェントは OpenAI。
- MMMU-Pro: マルチモーダル推論。Gemini 3.1 Pro が 81% で 1 位。画像・PDF・図表理解は Google。
つまり、一般知識ベンチは飽和し、特定分岐 ― コーディング(Anthropic)・OS 操作(OpenAI)・マルチモーダル(Google)・メディア/ソーシャル(xAI) ― へ選択基準が移ったということです。
「最近のモデルはどれも似ている」と言う方が見落とすのがここです。一般知識ベンチは似ています、確かに。 ただ、実際のワークロードはこの4軸のどれかに乗るんです。
7. 価格戦争 ― 超低価格 vs Pro プレミアム
価格を3帯に切ると構造が見えてきます。
超低価格帯 (≤$1/1M)
– Haiku 4.5: $1 / $5
– GPT-5.4 nano: $1 未満
– Grok 4.1 Fast: $0.20 / $0.50 ← 最攻撃的
この帯は ルーティング・分類・大量バッチ処理 用です。「エージェント内部で何百回と呼ばれる補助モデル」のポジション。
標準帯 ($2〜$5 in、$6〜$18 out)
– GPT-5.4: $2.50 / $15
– Claude Sonnet: $3 / $15
– Gemini 3.1 Pro: $2 / $12 (≤200K)
– Grok 4.20: $2 / $6
ここが戦場です。Grok の出力 $6 が特に破格。同じ GPT-5.4 と比べて 2.5 倍安い。一般実務ワークロードなら、コストで Grok が引っぱる構図になっています。
Pro プレミアム帯 ($25〜$180)
– Claude Opus 4.7: $5 / $25
– GPT-5.4 Pro: $30 / $180 ← 最高値
Pro 帯は「全部を注ぎ込む1回の呼び出し」に使う価格です。GPT-5.4 Pro 出力 $180 は他の Pro 帯の 7 倍。Codex・Computer use のような長時間エージェントで、品質を最適化するために投入する領域になります。
Gemini の区分課金 は1つだけ別軸: コンテキスト ≤200K で $2/$12、>200K で $4/$18。200K 以内で動かせば安く、超えると少しだけ上がる。OpenAI の「272K 以降 2x/1.5x」より 線形的 で予測しやすいです。
実務のヒントを1つ ― 同じエージェントの中で 「大量呼び出しは超低価格帯 + 重要な決定だけ標準帯」 と混ぜるのが 2026 年の基本構成です。1モデルで全部を回す時代は、もう終わっています。
8. FAQ
Q1. 「最近のモデルはどれも似ている」という評価は正しいですか?
半分当たっていて半分外れています。GPQA・MMLU のような一般知識ベンチは上位が 94% 台に収束して差がほぼありません。一方で SWE-bench・OSWorld・MMMU-Pro のような特定ワークロードベンチは、いまだに 5〜10% 単位で開いています。「知識質問」ならどれを使ってもよく、「コーディング・OS 操作・マルチモーダル」はラボを選ぶ必要があります。
Q2. Grok はオープンソースじゃないんですか?
Grok-1 だけが 2024-03 に Apache 2.0 で公開されました。その後の Grok 2, 3, 4, 4.1, 4.20 は全て重み非公開、API 専用のクローズドモデルです。xAI は「初期に一度公開した」というジェスチャーを残したあと、完全にクローズド戦略に舵を切りました。
Q3. Pro 帯($25〜$180)はいつ使うものですか?
長時間エージェントの中で「この1回の呼び出しが全体の成否を決める」という地点で使います。コードリポジトリ全体レビュー、長い PDF の意思決定、マルチステップ計画立案などです。普通の作業は標準帯 + 超低価格帯のミックスで足りることが多い。Pro 帯を既定モデルにすると、コストが一気に吹き上がります。
Q4. 4社のうちどれか1社だけを選ぶとしたら?
ワークロードで分かれます。コーディング中心なら Anthropic (SWE-bench)、ブラウザ・OS 自動化なら OpenAI (OSWorld)、2M コンテキスト・画像・PDF・自社チップ価格が必要なら Google (Gemini)、X のリアルタイムデータ・超低価格での大量呼び出しなら xAI (Grok 4.1 Fast)。「1社だけ」より、エージェントの中で3社以上を混ぜる のが 2026 年の実務基本形です。
9. 次の記事
P シリーズの次は P5: オープンソース3強 ― Llama・Qwen・DeepSeek です。クローズド4社と違い、こちらは実際に重みを公開しています。そうすると「価格」ではなく「サービングコスト・fine-tuning の自由度・オンプレ運用」が新しい軸になる。同じ基準(訓練方法・アーキテクチャ・製品戦略)で比較します。
ソースリスト
- OpenAI API Pricing: https://openai.com/api/pricing/
- GPT-5.4 Model Docs: https://developers.openai.com/api/docs/models/gpt-5.4
- Introducing GPT-5: https://openai.com/index/introducing-gpt-5/
- Claude Pricing: https://claude.com/pricing
- Claude Model Overview: https://platform.claude.com/docs/en/about-claude/models/overview
- Anthropic System Cards: https://www.anthropic.com/system-cards
- Gemini Pro: https://deepmind.google/models/gemini/pro/
- Gemini 3.1 Pro Announcement: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
- xAI API: https://x.ai/api
- xAI Developer Docs: https://docs.x.ai/developers/models
- Grok 4 Release Note: https://x.ai/news/grok-4
- Grok 4 Model Card (PDF, 2025-08-20): https://data.x.ai/2025-08-20-grok-4-model-card.pdf
- Artificial Analysis Leaderboard: https://artificialanalysis.ai/leaderboards/models
- ◀ 前の編: P3. コンピューティング・GPU 経済学
- 今の編: P4. クローズド LLM 4社の技術戦略の違い
- ▶ 次の編: P5. オープンソース3強 (Llama・Qwen・DeepSeek)
毎週月曜日、AIトレンドニュースレター配信中
会員登録すると、毎週月曜日に「今週のAI・バイブコーディング最新情報」をお届けします。バナー広告なし・本当に役立つ情報だけを厳選するクリーンなAI専門メディアです。




