GPT・Claude・Gemini・Grok ― クローズド4社の技術戦略はどう違うのか

📍 AIのしくみ地図 — 27/29章
この記事はAIの基礎からMeta-Harness·応用比較まで順に読む全29章シリーズの27章目です。
📚 全体地図を見る
📚 この記事を読む前に: Pシリーズは22編シリーズとP1(Claude family)を読んだ方を想定しています。特に F1 LLMF2 TransformerB1 Agent が前提知識です。

GPT・Claude・Gemini・Grok ― クローズド4社の技術戦略はどう違うのか

「最近のモデル、どれも似てませんか?」

最近この質問をよく受けます。

GPQA Diamond 94%台、MMLU 90%台、コーディングもSWE-benchで軒並み80%超。数字を横並びにすると、そう見えるのは無理もありません。上位層の差はほぼ消えた と言っていい状態です。

ところが、同じ数字の下で、4社はまったく別の方向に走っています。

  • OpenAI は ツール・エージェント・インフラの会社 になろうとしている
  • Anthropic は 安全・憲法の会社 であり続けようとしている
  • Google は マルチモーダル・自社チップ・2Mコンテキストの会社
  • xAI は pretraining-scale RL の会社

この記事は「どこが一番賢いか」という問いではありません。エンジニアリングの粒度で何が違うのか を4つに切り分けて見るための記事です。

クローズド(closed)という言い方をする理由も後で触れます。xAI のGrokは2024-03の Grok-1 だけがApache 2.0で重みが公開されていますが、その後の Grok 2・3・4・4.1・4.20 は すべてAPI専用のクローズド です。「オープンに見えるけどオープンじゃない」ポジションなんです。

順番はこうです。

  1. 4社を一枚で並べる
  2. OpenAI = ツール・エージェント・インフラ
  3. Anthropic = 安全・憲法
  4. Google = マルチモーダル・インフラ・自社チップ
  5. xAI = pretraining-scale RL + クローズド
  6. ベンチ収束 → 分岐点は別のベンチへ移った
  7. 価格戦争 ― 超低価格 vs Pro プレミアム
  8. FAQ

1. 4社を一枚で並べる (2026-04 時点)

FIG 1. 4社の価格・コンテキスト・フラグシップ
Lab Flagship $/1M in・out Context 主な指標
OpenAI GPT-5.4 $2.50 / $15 (Pro $30 / $180) 1.05M (>272K 2x/1.5x) OSWorld 75% ・ Codex
Anthropic Opus 4.7 $5 / $25 (Sonnet $3/$15) 1M SWE-bench Verified 87.6%
Google Gemini 3.1 Pro $2 / $12 (>200K $4/$18) 2M MMMU-Pro 81% ・ Deep Think GPQA 93.8%
xAI Grok 4.20 $2 / $6 (4.1 Fast $0.20/$0.50) 2M 4-agent ・ GPQA 88%
出典: openai.com/api/pricing ・ claude.com/pricing ・ x.ai/api ・ deepmind.google/models/gemini/pro (2026-04確認)

この表だけでも、価格帯とコンテキスト設計が4社ばらばらなのが見えます。ここからが本題です。


2. OpenAI = ツール・エージェント・インフラの会社

GPT-5.4 を「モデル」とだけ見ていると、OpenAI の戦略を読み落とします。この1年 OpenAI が押し込んできたのは モデルではなく、モデルを取り巻く OS レイヤ です。

価格構造に戦略が埋まっている

GPT-5.4 は入力 $2.50 / 出力 $15。ただし 272K トークンを超えた瞬間、入力は 2 倍、出力は 1.5 倍に跳ねる区分課金 が入ります。1.05M コンテキストを「提供はするが、コストでスロットリングをかけている」構造です。

一方で mini は $0.75 / $4.50、nano は $1 以下、Pro は $30 / $180。帯域が 50 倍以上開いた ラインアップ。これは「1つのモデルが全部やる」ではなく「ツール側がモデルを自動で選ぶ」という設計思想です。

Computer use・Codex・tool search

エンジニア視点で見ないと差が見えない部分はここです。

  • Computer use (OSWorld 75%): ブラウザ・ファイルシステム・OS UI をモデルが直接操作。これはモデルだけでは動きません。スクリーンショットパイプライン、座標正規化、アクション安全検証までを含めた インフラの束 です。
  • Codex 統合: エージェントがリポジトリ上で長時間作業する際に必要な harness を OpenAI 自身が提供。
  • Tool search / conversation compaction: ツールが増えると選択コストが爆発する問題を、モデルの外側にある検索レイヤで解いた。

Anthropic が「モデル品質」で勝負しているとすれば、OpenAI は「モデルを包む OS」で勝負しています。同じ GPT-5.4 を使っていても、System Card Update が 5.1 → 5.2 → 5.3 と増分公開される形で進んでいるのもこの戦略と一致しています。モデルリリースより、インフラ更新のほうが頻繁です。

エンジニアリングで読むと

訓練方法は非公開。公式論文もなく、重みもなく、パラメータ数も「公開しない」 です。その代わり OpenAI が公開するのは System Card・Pricing・Tool 周辺のドキュメント。外から見える戦略は「モデルの中身は開かない。プラットフォームを開く」に揃えられています。


3. Anthropic = 安全・憲法の会社

Anthropic は逆に、方法論を一番開いているラボ です。重みは開かないが、訓練・アライメントの フレームワーク は文書で公開しています。

Constitutional AI / RLAIF

Claude 系列が「Constitutional AI」という方法論の上に立っているのは 2022 年から公開された事実で、2026-01 には Constitution 改訂版がアップデート として公開されました。核は RLAIF (Reinforcement Learning from AI Feedback) ― 人間がすべてのペアを評価するのではなく、憲法に沿ってモデルが self-critique しながら整えていきます。

比較ポイント:
– OpenAI のアライメント方法は具体パイプラインが非公開。
– xAI は model cardRL が訓練予算の約 50% と数字まで出すが、「何のために最適化するか」の上位フレームは Anthropic ほど構造化されていない。

SWE-bench Verified 87.6%

Opus 4.7 が一番説明しやすいのはコーディングです。SWE-bench Verified 87.6% は現時点公開トップ。なぜ Anthropic がコーディングに強いのかの公式説明はありませんが、憲法ベースのアライメントが「長時間の作業を途中で放棄しない行動規範」と相性がいい という業界分析があります。(公式非公開・業界解釈)

Project Glasswing

2026 年に入って Anthropic が強調している新しいレイヤが Project Glasswing ― モデル内部のアクティベーションを観測・制御する安全機構 です。具体実装は非公開ですが、System Card で言及される方向性ははっきりしています。

エンジニアリングで読むと

Anthropic は「なぜ・どうアライメントするかを文書で公開する。モデル内部の数値は公開しない」。価格もシンプル ― Opus $5/$25、Sonnet $3/$15、Haiku $1/$5。ティアは 3 段、コンテキスト課金トリックなし。価格構造そのものが「モデルティアで売る」というメッセージです。


4. Google = マルチモーダル・インフラ・自社チップの会社

Gemini 3.1 Pro を一言で要約すると「インフラで勝つ」です。

2M コンテキストと区分課金

コンテキスト 2M は現時点公開の最大値。課金構造も透明です ― ≤200K $2/$12、>200K $4/$18。OpenAI のように「1M まで出すが 272K から跳ね上がる」ではなく、単純な 2 区分。エンジニアから見ると 予算計算がすっきり します。

マルチモーダル1位

  • MMMU-Pro 81% (マルチモーダル推論)
  • ScreenSpot-Pro 72.7% (ビジョン GUI 理解 1 位)
  • LMArena Elo 1501

ScreenSpot-Pro は特に意味が大きい指標です。OpenAI の Computer use が「スクリーンショット + アクション」パイプライン全体の強みだとすれば、Gemini は 「スクリーンショットの理解」そのもの で先行している。今後のエージェント GUI 分岐で決定的な優位になり得る数字です。

Deep Think

Gemini 3.1 Pro には別個の推論集中モード Deep Think が付きます。GPQA Diamond 93.8%。これは「長く考えさせればスコアが上がる」を公式プロダクト化した形で、OpenAI o-series や Anthropic の extended thinking と方向性は同じですが、Google はこれをコンテキスト・マルチモーダルと束ねて売って います。

自社チップ (TPU)

最も構造的な差は訓練・サービングインフラです。OpenAI・Anthropic は NVIDIA H100/H200/B200 に依存しています。Google は TPU を自社設計・運用。これが価格構造の土台です ― 2M コンテキストを $2/$12 で売って利益を出せる理由は、ハードウェアスタックまで垂直統合されているからです。

エンジニアリングで読むと

Google のメッセージは「ハードウェア・コンテキスト・マルチモーダル の3軸 で売る」。3つとも、他ラボが追いつきにくい。TPU は一朝一夕には作れないし、2M はインフラなしでは売れないし、マルチモーダルデータセットも数年単位の積み上げの結果なんです。


5. xAI = pretraining-scale RL + クローズド

ここが 2026 年に最も「おもしろくて過小評価されている」ラボです。

Grok は「オープン」ではない

先に訂正を。Grok-1 は 2024-03 に Apache 2.0 で重みが公開されました。その後の Grok 2, 3, 4, 4.1, 4.20 はすべて重み非公開・API 専用です。 「Grok ってオープンソースじゃないの?」と聞かれることがあるんですが、2024-03 のあの一回以降は違います。xAI は 完全にクローズドなラボ です。

Colossus と RL 予算 50%

2025-08-20 に公開された Grok 4 model card には、かなり強い数字が書いてあります。

  • Colossus クラスタ: 約 30 万 GPU (業界最大級)
  • RL が訓練予算全体の約 50% ― 一般的な「pretraining 90% + RLHF 少し」の式を逆にした比率

なぜ意味があるかというと、これまでの LLM 訓練の式は 「巨大 pretraining → 小規模な RLHF アライメント」 でした。xAI はこの比率を半分ひっくり返し、RL 自体を pretraining と同格のスケールで 回しています。model card 自身が明言した戦略です。

4-agent アーキテクチャがモデル自体に組み込まれている

Grok 4 のもうひとつの特徴 ― 4 体のエージェントが並列に回答を生成して合議する 構造がモデルレベルに組み込まれています。普通の LLM は「推論チェーン1本」を出しますが、Grok 4 は内部で4本走って1本が出てくる。GPQA 88% の数字の裏にはこの構造があります。

X のリアルタイム統合 ・ knowledge cutoff 2024-11

  • X(Twitter) のリアルタイム検索が標準搭載 ― 他ラボが別ツールとして接続する必要のあるものを、xAI は「X を自前で持っている」で解決。
  • knowledge cutoff は 2024-11 ― 他のフラグシップより古い。でもリアルタイム X があるので大きな問題ではない、というポジション。

価格: 最も攻撃的

  • Grok 4.20: $2 / $6 ― GPT-5.4 入力同価・出力半額
  • Grok 4.1 Fast: $0.20 / $0.50 ― ほぼ Haiku・nano 帯

「低価格 + pretrain-RL + リアルタイム X」で メディア・ソーシャル系ワークロード に最適化されたラボとして読むのが正しい。汎用品質で Opus や Gemini を抜こうとしている戦略ではありません。

エンジニアリングで読むと

「我々は RL を pretraining スケールで回せる唯一のラボだ。そして X という独占データソースがある」。重みは開かない。Grok-1 だけ開けて、以降はすべて API。


6. ベンチ収束 → 分岐点は別のベンチへ移った

FIG 2. 4社が向かう4つの方向
Lab 向かう方向 表れている指標
OpenAI ツール・エージェント OS レイヤ OSWorld 75% ・ Computer use ・ Codex
Anthropic 安全・憲法・コーディング整合 SWE-bench 87.6% ・ Constitution ・ Glasswing
Google マルチモーダル ・ 2M ・ 自社チップ MMMU-Pro 81% ・ ScreenSpot 72.7% ・ TPU
xAI pretraining-scale RL ・ X データ RL 予算 50% ・ 4-agent ・ Colossus 300K GPU

GPQA Diamond だけを見てみます。2026-04 時点:

  • Opus 4.7: 94.2%
  • GPT-5.4 Pro: 94.4%
  • Gemini 3.1 Pro (Deep Think): 93.8% (標準モードは別の数値)
  • Grok 4.20: 88%

上位3つは 小数点の差 です。これだと、一般実務で「どっちが賢いか」という問い自体が意味を失う水準に来ています。

だから 本当に差が出るベンチ は何か、が重要になります。

  • SWE-bench Verified: 長時間のコーディングワークフロー。Opus 4.7 が 87.6% で 1 位。コーディングエージェントでは Anthropic がいまだ優位。
  • OSWorld: OS レベルの computer use。GPT-5.4 が 75% で 1 位。画面操作エージェントは OpenAI。
  • MMMU-Pro: マルチモーダル推論。Gemini 3.1 Pro が 81% で 1 位。画像・PDF・図表理解は Google。

つまり、一般知識ベンチは飽和し、特定分岐 ― コーディング(Anthropic)・OS 操作(OpenAI)・マルチモーダル(Google)・メディア/ソーシャル(xAI) ― へ選択基準が移ったということです。

「最近のモデルはどれも似ている」と言う方が見落とすのがここです。一般知識ベンチは似ています、確かに。 ただ、実際のワークロードはこの4軸のどれかに乗るんです。


7. 価格戦争 ― 超低価格 vs Pro プレミアム

価格を3帯に切ると構造が見えてきます。

超低価格帯 (≤$1/1M)
Haiku 4.5: $1 / $5
– GPT-5.4 nano: $1 未満
– Grok 4.1 Fast: $0.20 / $0.50 ← 最攻撃的

この帯は ルーティング・分類・大量バッチ処理 用です。「エージェント内部で何百回と呼ばれる補助モデル」のポジション。

標準帯 ($2〜$5 in、$6〜$18 out)
– GPT-5.4: $2.50 / $15
– Claude Sonnet: $3 / $15
– Gemini 3.1 Pro: $2 / $12 (≤200K)
– Grok 4.20: $2 / $6

ここが戦場です。Grok の出力 $6 が特に破格。同じ GPT-5.4 と比べて 2.5 倍安い。一般実務ワークロードなら、コストで Grok が引っぱる構図になっています。

Pro プレミアム帯 ($25〜$180)
– Claude Opus 4.7: $5 / $25
– GPT-5.4 Pro: $30 / $180 ← 最高値

Pro 帯は「全部を注ぎ込む1回の呼び出し」に使う価格です。GPT-5.4 Pro 出力 $180 は他の Pro 帯の 7 倍。Codex・Computer use のような長時間エージェントで、品質を最適化するために投入する領域になります。

Gemini の区分課金 は1つだけ別軸: コンテキスト ≤200K で $2/$12、>200K で $4/$18。200K 以内で動かせば安く、超えると少しだけ上がる。OpenAI の「272K 以降 2x/1.5x」より 線形的 で予測しやすいです。

実務のヒントを1つ ― 同じエージェントの中で 「大量呼び出しは超低価格帯 + 重要な決定だけ標準帯」 と混ぜるのが 2026 年の基本構成です。1モデルで全部を回す時代は、もう終わっています。


8. FAQ

Q1. 「最近のモデルはどれも似ている」という評価は正しいですか?

半分当たっていて半分外れています。GPQA・MMLU のような一般知識ベンチは上位が 94% 台に収束して差がほぼありません。一方で SWE-bench・OSWorld・MMMU-Pro のような特定ワークロードベンチは、いまだに 5〜10% 単位で開いています。「知識質問」ならどれを使ってもよく、「コーディング・OS 操作・マルチモーダル」はラボを選ぶ必要があります。

Q2. Grok はオープンソースじゃないんですか?

Grok-1 だけが 2024-03 に Apache 2.0 で公開されました。その後の Grok 2, 3, 4, 4.1, 4.20 は全て重み非公開、API 専用のクローズドモデルです。xAI は「初期に一度公開した」というジェスチャーを残したあと、完全にクローズド戦略に舵を切りました。

Q3. Pro 帯($25〜$180)はいつ使うものですか?

長時間エージェントの中で「この1回の呼び出しが全体の成否を決める」という地点で使います。コードリポジトリ全体レビュー、長い PDF の意思決定、マルチステップ計画立案などです。普通の作業は標準帯 + 超低価格帯のミックスで足りることが多い。Pro 帯を既定モデルにすると、コストが一気に吹き上がります。

Q4. 4社のうちどれか1社だけを選ぶとしたら?

ワークロードで分かれます。コーディング中心なら Anthropic (SWE-bench)、ブラウザ・OS 自動化なら OpenAI (OSWorld)、2M コンテキスト・画像・PDF・自社チップ価格が必要なら Google (Gemini)、X のリアルタイムデータ・超低価格での大量呼び出しなら xAI (Grok 4.1 Fast)。「1社だけ」より、エージェントの中で3社以上を混ぜる のが 2026 年の実務基本形です。


9. 次の記事

P シリーズの次は P5: オープンソース3強 ― Llama・QwenDeepSeek です。クローズド4社と違い、こちらは実際に重みを公開しています。そうすると「価格」ではなく「サービングコスト・fine-tuning の自由度・オンプレ運用」が新しい軸になる。同じ基準(訓練方法・アーキテクチャ・製品戦略)で比較します。


ソースリスト

  • OpenAI API Pricing: https://openai.com/api/pricing/
  • GPT-5.4 Model Docs: https://developers.openai.com/api/docs/models/gpt-5.4
  • Introducing GPT-5: https://openai.com/index/introducing-gpt-5/
  • Claude Pricing: https://claude.com/pricing
  • Claude Model Overview: https://platform.claude.com/docs/en/about-claude/models/overview
  • Anthropic System Cards: https://www.anthropic.com/system-cards
  • Gemini Pro: https://deepmind.google/models/gemini/pro/
  • Gemini 3.1 Pro Announcement: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
  • xAI API: https://x.ai/api
  • xAI Developer Docs: https://docs.x.ai/developers/models
  • Grok 4 Release Note: https://x.ai/news/grok-4
  • Grok 4 Model Card (PDF, 2025-08-20): https://data.x.ai/2025-08-20-grok-4-model-card.pdf
  • Artificial Analysis Leaderboard: https://artificialanalysis.ai/leaderboards/models

🗺 AIのしくみ地図上の現在位置
  • ◀ 前の編: P3. コンピューティング・GPU 経済学
  • 今の編: P4. クローズド LLM 4社の技術戦略の違い
  • ▶ 次の編: P5. オープンソース3強 (Llama・Qwen・DeepSeek)

毎週月曜日、AIトレンドニュースレター配信中

会員登録すると、毎週月曜日に「今週のAI・バイブコーディング最新情報」をお届けします。バナー広告なし・本当に役立つ情報だけを厳選するクリーンなAI専門メディアです。

無料で会員登録する(30秒)→

バイブコーディング テイラー
バイブコーディング テイラー
AIの仕組みとビジネス応用を日本語・韓国語で記録。毎週月曜、ニュースレター配信中。
ニュースレターを購読する →
JAKO