目次
- この記事の見方(Artificial Analysisの“読み方”)
- LLM比較の5つの指標:Intelligence / Speed / Latency / Price / Context
- blended価格(入力:出力=3:1)と Intelligence Index v4.0 の前提
- まず結論:1社に絞るより「役割分担」が勝つ
- GPT(OpenAI):Vibe Codingの“基準器”になりやすい
- レンジが広い(高知能〜高速〜低コスト)
- データ保安:学習とログ保持は別問題
- Gemini(Google):統制された組織導入と“長文”に強い
- 企業運用(AI Studio/Vertex/Workspace)と相性がいい
- データ保安:保持期間と運用上の仕様
- Claude(Anthropic):要件定義・レビュー・長文の“整流化”
- Opus / Sonnet / Haiku の役割分担
- データ保安:プランと設定で前提が変わる
- Grok(xAI):リアルタイム性と超長コンテキストの“尖り”
- 強み:長い・速い・安いの同居
- 注意:データ境界と説明責任
- DeepSeek:コストは正義。ただし管轄と規制は“仕様”
- 強み:大量処理(要約/分類/抽出)
- 注意:データの管轄・国外移転・規制リスク
- じゃあ僕はどう使い分けるか:Vibe Codingの実戦設計
- GPT:実装と回転の主力
- Claude:設計と文章の整流化
- Gemini:統制された長文運用
- Grok / DeepSeek:使う場面を限定する
LLM比較は「どれが一番賢いか」ではなく、用途ごとの役割分担で考えるのがいちばん再現性が高い。
Artificial Analysisの“読み方”:LLM比較の指標
この記事の軸は Artificial Analysis。

ここが優れているのは、「賢さ」だけではなく、実務に効く指標が揃っていることです。
Artificial Analysisの指標はざっくり言うと、
- Intelligence(総合知能)
- Speed(出力速度)
- Latency(初動)
- Price(単価)
- Context(扱える文脈の長さ)
さらにPriceは、入力と出力の価格を単純に足すのではなく、入力:出力=3:1で混ぜた“blended”表記が基本です。
また Intelligence Index v4.0 は複数ベンチ(GDPval-AA、SciCode、AA-LCR、GPQA Diamond など)を合成していて、単一ベンチ偏重になりにくい設計になっています。
ここまで押さえると、「賢いけど遅い」「速いけど浅い」「安いけどガバナンスが怖い」といった“現実の悩み”が、そのまま比較軸になります。
まず結論:1社に絞るより「役割分担」が勝つ
Vibe Coding視点で一番再現性が高いのは、LLMを「一本化」するより「役割分担」する設計です。
実装と回転(仕様→実装→修正→テスト)を回す主力には GPT が強い。長文の整流化(要件定義、設計レビュー、文章の一貫性)には Claude が噛み合う。Googleの業務基盤(Workspace/Vertex)で統制しながら長文を扱うなら Gemini が自然にハマる。リアルタイム性や超長コンテキスト、X連携という“世界観”込みで使うなら Grok が刺さる。一方でコスト最優先や実験量を最大化したいとき、DeepSeek は候補に入るが、データの管轄と規制リスクを“仕様”として先に飲み込む必要がある、という感じです。
ここから先は、それぞれのモデルを「何に効くか」「どこで事故るか」の順に、文章で整理します。
GPT(OpenAI):Vibe Codingの“基準器”になりやすい
OpenAIのラインナップは、ひとことで言うと「レンジが広い」。
Artificial Analysis上でも、OpenAI内で最高知能に位置付けられているのは GPT-5.2 (xhigh) と GPT-5.2 Codex (xhigh) です。
一方で、最速側には GPT-5 Codex (high) が 260 tokens/s として示され、最安側には GPT-5 nano 系が blended $0.14/M tokens として出ています。つまり「とにかく回転させる」用途と「ここぞの難問」用途を、同じ生態系で切り替えやすい。
価格感も押さえておくと、GPT-5.2 (xhigh) の入出力単価は Artificial Analysis上で 入力 $1.75 / 出力 $14.00(いずれも1M tokensあたり)として提示されています。
この数字は「高い/安い」よりも、「高知能に寄せた時の燃費」を肌で理解するために効きます。Vibe Codingで言うなら、仕様書を丸ごと読ませて設計を固める局面では高知能を使い、普段のUI修正・バグ潰し・テスト生成は速いモデルで回す、みたいな運用が作れます。
そして、データ保安の観点でOpenAI APIはかなり重要な“仕様”を持っています。OpenAIは「2023年3月1日以降、APIに送られたデータは明示的にopt-inしない限り学習に使わない」と明記していて、さらに abuse monitoring logs がデフォルトで最大30日保持されることも書いています。
つまり「学習に使われない=ゼロ保持」ではない。ここを混同すると事故ります。機密度が高い案件では、保持・ログ・レジデンシまで含めて契約・設定で詰める、が現実的な落とし所です。
AI業務自動化に興味がある方は、Instagram(@taro_taro609)にDMで「診断」と送ってください。
Gemini(Google):統制された組織導入と“長文”に強い
Googleの強みは、モデルの良し悪しだけじゃなく「企業の統制設計とつながっている」ことです。
Artificial Analysis上では、Google内の最高知能として Gemini 3.1 Pro Preview(AI Studio/Vertex) が示されています。 さらに コンテキストが1m と明記されていて、長い仕様書・大量議事録・長期プロジェクトログを“運用として”食わせやすいのが特徴です。
価格も押さえると、Gemini 3.1 Pro Preview は Artificial Analysis上で 入力 $2.00 / 出力 $12.00(1M tokensあたり)として提示されています。 ここは「OpenAIより安い/高い」というより、Googleの運用環境(AI Studio/Vertex、Workspace、CMEKやVPCSCなど)に価値を置く人には納得の付く支払い、と捉えるのが良いと思います。
データ保安の仕様がかなり具体的なのもGoogleの特徴です。
Gemini APIの利用ポリシーでは、Prohibited Use Policy違反検知のために、プロンプト・コンテキスト・出力を55日保持すると明記されています。
さらにログは原則55日で期限切れだが、データセット化すると保持が伸びる、という運用面の仕様もドキュメントとして出ています。
「APIを使う=完全に保存されない」ではなく、「何が、どれくらい、どの目的で保持され得るか」が言語化されているのがポイントです。守りたい組織ほど、この“仕様の見える化”が効きます。
Claude(Anthropic):要件定義・レビュー・長文の“整流化”で刺さる
Claudeを語るとき、能力の話より先に「運用上の前提」を言いたいです。なぜなら、Anthropicは個人向け(Consumer)で、データ利用と保持の選択肢が明確に変わったから。
まず性能面。Artificial Analysis上では、Anthropic内の最高知能として Claude Opus 4.6 (max) と Claude Sonnet 4.6 (max) が示されています。 韓国の開発者コミュニティーでは、プログラミング性能に関しては”Claude Code一強時代”と言われています。
Artificial Analysisでも Opus/Sonnet/Haiku をそれぞれ別枠で比較していて、基本的に Opus が最上位、Sonnet がバランス、Haiku が高速・低コスト側、という整理になっています。
イメージとしては、
- Opus:最も“深く考える”役。設計レビュー、難しい推論、長文の整流化に強い
- Sonnet:実務の主力。賢さと速度のバランスが良く、普段の開発・レビューに向く
- Haiku:高速で回す役。要約、分類、軽いコード修正、会話の回転に向く
という役割分担です。
速さ側には Haiku 系が並び、最長コンテキストは 1m の枠が存在します。つまりClaudeは、文章の一貫性や長文の読み解きに向く性格を保ちつつ、速度とコストの逃げ道もある。
価格感としては、Opus 4.6 (max) が 入力 $5.00 / 出力 $25.00(1M tokensあたり)とされ、明確に“重い局面向け”の位置付けです。
次にデータ保安。Anthropicは、Consumer向けの規約更新で「学習のためにデータ提供を許可した場合、保持期間を5年に延長する」と公式に説明しています。許可しない場合は従来どおり 30日保持が継続される、とも明記されています。
つまりClaudeは、“賢いから使う”よりも先に、“どのプランで、どの設定で、どの保持仕様で使っているか”が安全性を決めます。Vibe Codingの現場だと、要件定義や設計レビューはClaudeに寄せつつ、機密コードはAPI運用で境界を作る、のように使い分けるのが自然です。
Grok(xAI):リアルタイム性と超長コンテキストの“尖り”
Grokは、設計思想が尖っています。xAIの「Announcing Grok」でも、ユーモアや反骨精神だけでなく、質問そのものを提案する存在として語られています。
Artificial Analysisの整理でも、xAI内で 2mコンテキストが示され、価格面では blended $0.28/M tokens、さらに低遅延モデルでは 0.67秒といった形で“運用の強み”が見える。
この「長い・速い・安い」の同居は、長期ログを抱えた調査や、SNS文脈込みの意思決定補助にハマります。
ただし、Grokは“機能”が強い分、データ境界が溶けやすい。xAIのFAQでは、Grok.com上で「Improve the Model」を切り替えることで学習利用を制御でき、Private Chatなら学習に使われない、と説明されています。
一方で最近は、X上のGrok機能に絡む規制・社会問題もニュースになっています。たとえばEUの規制当局が、Grokが生成した性的ディープフェイク画像を巡って調査に入った、という報道があります。 世界的問題になっていましたね。
結論としては、Grokは「リアルタイム性やX文脈まで含めて価値が出る」領域で使うと強いが、企業の機密データを“雑に突っ込む主力”にするのは、設計上の説明責任が重い、という位置付けになります。
DeepSeek:コストは正義。ただし管轄と規制は“仕様”として扱う
DeepSeekは、コスト感だけ見ると魅力的です。Artificial Analysisでは、DeepSeek側の最高知能として DeepSeek V3.2(/Exp) が示され、速度は 約50 tokens/s、遅延は 約1.17秒、価格は blended $0.32/M tokens、コンテキストは 128k と整理されています。
「大量要約」「分類」「抽出」など、推論を重くせずに数を回したい仕事で強いタイプです。
ただし、DeepSeekは性能より先に“管轄”が重要になります。
DeepSeekのプライバシーポリシーには、サービス提供のために個人データを 中国(People’s Republic of China)で収集・処理・保存する旨が明記されています。さらに、サービス改善や機械学習モデルの訓練・改善のために、ユーザー入力等を利用し得ることも書かれています。
そして、韓国の個人情報保護委員会(PIPC)が「DeepSeekが同意なくユーザーデータやプロンプトを国外移転した」と発表した、というReuters報道もあります。
僕が韓国在住の開発者としてここを強調する理由は単純で、「政治の話」ではなく「プロダクト運用のリスク」だからです。DeepSeekを使うなら、最初から“入れていいデータ分類”を決め、必要ならモデル選定以前に利用形態(API、オンプレ、自前ログ、プロキシ)を設計しておくべきです。
じゃあ僕はどう使い分けるか:Vibe Codingの実戦設計
ここまでのLLM比較を踏まえて、僕ならVibe Codingの現場でこう割り切ります。
- GPT:まず「開発を進める主力」は GPT に寄せます。理由は、OpenAIの生態系の中で最高知能(GPT-5.2系)から高速(Codex 260 t/s)・低コスト(nano $0.14)までレンジが広く、作業のフェーズごとに“同じ思想のまま”切り替えられるからです。
- Claude:次に「仕様を整える・文章を整流化する・レビューで破綻を減らす」役は Claude に渡す。長文の一貫性を保つ作業は、バグを減らすだけじゃなく、最終的に開発の総コストを下げます。
- Gemini:Google基盤で統制しながら長文を扱う組織なら Gemini を主役に据えるのが自然で、APIの55日保持などの仕様が見えるのも運用上は強い。
- Grok、DeepSeek:Grokは「リアルタイム性とX文脈が価値になる場面」に限定して使う。DeepSeekは「コストが勝つ場面」で使うが、データ分類と規制要件を先に通す。
ツールの比較、[UberEats風アプリを”Lovable ,Codex GPT,ClaudeCode”で開発時間、費用、完成度 ]比較する。
会員登録して無料学習資料、実務用テンプレートを手に入れよう!
以下のテンプレートや学習資料を無料DLできます。
- 世界一易しい非IT向けに「OS/ネットワーク/サーバー/API/JSON」を噛み砕く(19ページ分量)
- Codexレビュー用プロンプト(24ページ分量)
- Prompt Engineering入門 実務用テンプレート22選
テイラーの隠れ家
自然言語で世界を設計|Vibe Codingメディア
こちらもお読みください
- Google Stitch 使い方【2026年最新】無料でアプリUIを一瞬で生成するAIデザインツール完全ガイド
- Leanstral完全ガイド【2026年最新】Mistral AIの形式検証エージェントでバイブコーディングのバグを数学的に消す
- Claude Cowork プラグイン11選【2026年最新】全て無料オープンソース——営業・法務・金融・データまで
- AIスキル設計パターン5選【2026年最新】Google×Anthropic×Vercel——エージェント開発の新定石
- #QuitGPT とは【2026年最新】ChatGPTを辞める人が急増中——400万人離脱の真相とClaude移行ガイド
📘 バイブコーディングを始めたい方へ
コードを書かずにAIと会話するだけでアプリが作れる「バイブコーディング」の入門ガイドPDFを販売中です。ゼロからアプリ完成までの全ステップを解説しています。
👉 バイブコーディング入門ガイドPDF(¥1,480)でゼロから始めよう →
AI導入についての相談
どのAIツールが合うか分からない、自動化できる業務を整理したいという方は、30分の無料診断を行っています。
Instagram(@taro_taro609)にDMで「診断」と送ってください。
著者: 稲邉舜太朗(Lovable公式アンバサダー)
運営: テイラーの隠れ家(shuntailor.net)
LLM比較表
主要LLM 5社比較 (2026年3月)
| Claude | GPT | Gemini | Grok | DeepSeek | |
|---|---|---|---|---|---|
| 最新モデル | Opus 4.6 | GPT-5.4 | 2.5 Pro | Grok 3 | R1 / V3 |
| コンテキスト | 1M | 256K | 1M | 128K | 128K |
| 料金(Pro) | $20/月 | $20/月 | $20/月 | $30/月 | 無料 |
| コーディング | ◎ | ◎ | ○ | ○ | ◎ |
| 推論 | ◎ | ◎ | ◎ | ○ | ◎ |
| OSS | ✗ | ✗ | ✗ | ✓ | ✓ |
※ 2026年3月時点の情報
© バイブコーディング研究所
コメントする