📚 全体地図を見る
Haiku・Sonnet・Opusは技術的に何が違うのか、Opus 4.6→4.7の中身
「Haikuは速くて安い、Sonnetは中間、Opusは遅くて高くて賢い」。
このくらいはAnthropic公式サイトを10秒見れば出てきます。ところが「なんでそうなの?」ともう一歩踏み込むと、ほとんどの人はそこで止まります。
パラメータ数が違うから? — 公開されていません。
アーキテクチャが違うから? — 公開されていません。
OpusをdistillしてHaikuを作っているのか? — 公開されていません。
3モデルの「技術的な違い」としてネットで語られている多くのことは、アーキテクチャ層では確定的に公開されたものがほぼない。これはAnthropicが隠しているというより、意図的に非公開ポリシーを維持している領域です。そこを踏まえずに書かれた比較表が、日本語ネットには多すぎる。
この記事は2つのことをします。
- Haiku・Sonnet・Opusについて、Anthropicが公式に公開したことと意図的に非公開に置いていることを分離して整理する。
- 2026年4月のOpus 4.6 → 4.7マイナーアップグレードで、実際に変わった6つを公式ドキュメント(whats-new-claude-4-7)そのままに読み解く。
Pシリーズの出発点で、今後の記事はすべてここから派生します。
1. Anthropicが意図的に公開しないもの — まずこれを認めて先へ進もう
Claude 3のモデルカード以降、公式ポリシーはこうです。
- パラメータ数 — 非公開
- レイヤー数・アテンションヘッド数 — 非公開
- 学習データの具体的な構成 — 概略のみ公開
- HaikuがOpusのdistillationかどうか — 非公開
- 4.6 → 4.7のpost-trainingの具体的なレシピ — 非公開
OpenAIもGPT-3.5以降は同じ方向で、Google Geminiも同様。フロンティアモデル企業が2024年以降、技術ディテールの公開を止めたのは業界共通の流れです。
なので「Haikuは何B(ビリオン)パラメータ」という数字が流通していても、それは事実ではなく業界推定。使わないほうがいい。公式非公開のものを事実として語ってしまうと、そこから続く比較はすべて砂上の楼閣になります。
では「確実にわかっていること」は何か。意外と多いです。
2. 公開されている違い — 価格・コンテキスト・レイテンシ・思考モード
2026年4月時点、Anthropic公式overviewページが明示するスペックはこうです。
| Opus 4.7 | Sonnet 4.6 | Haiku 4.5 | |
| ポジショニング | most capable | best combo of speed+intel | fastest, near-frontier |
| 入力 / 出力 ($/1M) | $5 / $25 | $3 / $15 | $1 / $5 |
| コンテキストウィンドウ | 1M tokens | 1M tokens | 200k tokens |
| 最大出力 | 128k | 64k | 64k |
| レイテンシ (定性) | Moderate | Fast | Fastest |
| Extended thinking | No | Yes | Yes |
| Adaptive thinking | Yes | Yes | No |
| パラメータ数 | 公式非公開 (3モデルとも) | ||
ここで押さえておきたい点がいくつかあります。
(1) レイテンシは定性表現しか公開されていない。 「平均ms単位の応答時間」のような数値はAnthropicが公開していません。Fastest > Fast > Moderate という順序だけが確定。サードパーティベンチ(例: Artificial Analysis)が計測したTPSは参考値で、Anthropic公式ではありません。
(2) 価格差がそのまま「知能差」ではない。 Haiku 4.5はAnthropic公式表現で「fastest model with near-frontier intelligence」。フロンティアに近い、つまりOpusとの差は大きくないとAnthropic自身が書いている。価格5倍の差が品質5倍の差にはならない、ということです。
(3) Opus 4.7だけadaptive thinking専用、Haiku 4.5はextended thinking専用、Sonnet 4.6は両対応。 これは4.7で起きた最大のAPI変化なので後で個別に扱います。
(4) Haikuだけコンテキスト200k。 1MはOpus・Sonnet限定。これはトークンが増えるほどメモリ・KVキャッシュのコストがquadraticに増えるから — 価格が安いHaikuで1Mを提供するとマージンが成立しない構造だと推測されます(業界推測・Anthropic公式説明なし)。
ここまでが「公開された違い」。では本題へ。
3. Opus 4.6 → 4.7マイナーアップグレード — 実際に何が変わったか
2026-04-16、AnthropicがOpus 4.7をリリースする際に公開したwhats-newドキュメントをそのまま読むと、変わったのは6つ。メジャーバージョン(3 → 4)でもない、4.6 → 4.7マイナー更新なのに、breaking changeがこれだけ入ります。
これを1つずつ、なぜ変えたのか、どういう意味があるのかを読み解いていきます。
4. Tokenizer交換 — なぜ同じ文章でトークンが増えるのか
一番納得いかない変更点かもしれません。
「いや、モデルが良くなったんでしょ? なのに同じテキストでトークンが増える? 料金上がるじゃん?」 — 上がります。ワークロードによっては最大35%まで。
ところがAnthropicは公式ドキュメントでこう書いています。
“Claude Opus 4.7 uses a new tokenizer, contributing to its improved performance on a wide range of tasks.”
— 新しいトークナイザーが性能向上に寄与した。つまりトークンを多く食うようになったのではなく、モデルがテキストをより細かく刻んで、より精緻に理解できるようにしたのが今回のトークナイザー交換です。
トークンとは何か、なぜBPEが単語の一部を分割するのかがあやふやな方は、F1. LLMの基礎の2番セクションを先に読んでください。その前提で説明すると、
- 既存のトークナイザーが
unbelievableを[un][believ][able]の3トークンに分割していたとすれば - 新しいトークナイザーは
[un][believ][abl][e]のようにもっと細かく分け、4トークンにする場合がある
分割単位が細かいほど、モデルはサブワードの組み合わせを自由に使えます。代わりに同じ原文がより多くのトークンで表現される。新トークナイザーが特に得意な言語・ドメインがあるはずですが、その詳細はAnthropicが公開していません — 結果値(1x 〜 1.35x)だけが公開されています。
開発者に対する実務的な影響:
/v1/messages/count_tokensの結果が4.6より大きくなる。トークン予算スクリプトは全部書き直し。max_tokensを上げる必要がある。compaction triggerを持つエージェントは基準値の再設定が必須。- コスト予測モデルを再計算。入力が1.2倍になるとすれば、$5/$25の体感コストは$6/$30近くに。
ここがマイナーアップグレードに入った理由のコアです。トークナイザーを変えるというのは、モデルを最初から学習し直すということ。トークナイザーは学習の最下層 — 語彙が変われば埋め込みが変わり、埋め込みが変わるとその上の全重みが意味を失います。
つまりOpus 4.7は4.6から「ちょっとチューニングした版」ではない。ほぼ新しいモデルです。バージョン番号がマイナーに付いているだけ。
5. Vision解像度3倍 — なぜcomputer useのために見るべきなのか
1568pxから2576pxへ。面積では1.15MP → 3.75MP、3.26倍です。
数字だけ見ると「画像が少し鮮明になるのかな」で終わりそうですが、この変更の意図はそこではありません。Anthropicが明示的に書いている文:
“particularly important for computer use and screenshot/artifact/document understanding workflows.”
つまりClaudeがスクリーンショットを見てUIを操作するagent用途のために上げたんです。
1568pxは一般的なWebページのスクショの横幅を十分にカバーできません。小さなボタン・ツールチップ・サイドバーの文字が潰れます。2576pxなら4Kディスプレイのスクショもほぼ無劣化で入る。
そこに「座標が1:1でマップされる」という変更が重なる。以前はモデルが見た画像の座標 → 実ピクセル座標への変換にscale-factor計算が必要でした。4.7以降はモデルが「x=847, y=512をクリック」と言えば、それがそのまま実ピクセル(847, 512)です。
この2つが合わさるとcomputer use agentの信頼度がかなり上がります。これはAnthropicの直近の方向性と正確に合致します — Opus 4.7のポジショニング自体が「agentic coding」で、Claude for Browser、Computer use API、Claude Codeが全部この解像度アップグレードの恩恵を受けます。
ただし高解像度画像はトークンを多く食う。必要ないシーンでは自分でダウンサンプリングしてから送れ、というのがAnthropicの明示的な推奨です。
6. Thinking再設計 — なぜextended thinking budgetを削ったのか
breaking changeの中で一番大きいのがこれです。
4.6までのやり方:
thinking = {"type": "enabled", "budget_tokens": 32000}
— 「32,000トークンまで考えていい。そのあと答えを出せ」。
4.7のやり方:
thinking = {"type": "adaptive"}
output_config = {"effort": "high"}
— 「考える長さはおまえが決めろ。こちらはeffortだけ決める」。
Anthropicの公式根拠はこれ。
“Adaptive thinking is the only thinking-on mode, and in our internal evaluations it reliably outperforms extended thinking.”
内部評価でadaptiveがextendedに安定して勝った、というわけです。つまり「固定budgetをモデルに押し付ける」より「モデルが問題の難度に応じて自分で思考長を決める」ほうが結果がいい。
この変更にはpost-training側の変化も同時に入ったと推測されます(Anthropicはディテール非公開、公式非公開・業界推測)。Adaptive thinkingがまともに機能するには、モデルが「この問題は自分がどれだけ考えれば解けるか」を自己判断できなければいけません。その判断能力はpost-training(RLHF・Constitutional AI)段階で植え付けられます。レシピ自体は公開されていない。
extended thinkingが残っているモデルもある — Sonnet 4.6、Haiku 4.5。つまりAnthropicは「Opus 4.7ではadaptiveが勝った」と確信したけれど、安価モデル全体を一度に切り替えてはいない。段階的置き換えです。
実務への影響: 既存コードで budget_tokens をハードコーディングしたOpus呼び出しは全部400エラーになります。マイグレーション必須。
7. Samplingパラメータ削除 — なぜtemperatureを使えなくしたのか
これが個人的には最も大胆と感じた変更です。
Opus 4.7では temperature、top_p、top_k のどれかにnon-default値を入れると400エラー。前世代のLLM APIを使った人なら、これがどれほど大きな話かすぐ分かります。temperature=0 は「決定的出力」を期待するときに使うほぼ慣用的な設定でした。
Anthropicの立場はこう。
“If you were using
temperature = 0for determinism, note that it never guaranteed identical outputs.”
— そもそも temperature=0 が決定論を保証したことは一度もない。これは事実で、同じtemperature 0でもKVキャッシュの経路・バッチ構成・ハードウェアの状態によって結果は変わります。「決定論が欲しいなら、samplingではなくプロンプトで制約しろ」というのがAnthropicのポリシー。
つまり4.7でsamplingパラメータを落としたのは、
- ユーザーが誤った期待(決定論保証)で使うのを防ぐため
- モデル内部でAnthropicがチューニングしたデフォルトsampling設定を守るため
2つ目のほうが大きいと思います。Adaptive thinkingと同じ方向性です — 「モデルの行動をユーザーがパラメータで強制的に調整する」インターフェースを減らし、「Anthropicがチューニングしたデフォルト」に従わせている。裏を返せばAnthropicが自社post-training成果物への確信を深めたという傍証です。
プロンプトがなぜ効くのかの基礎感覚は B2. プロンプトが効く仕組み で先に入れておいてください。4.7の方向は「パラメータ調整 → プロンプト調整」に移っています。
8. 行動チューニングとサイバーセキュリティフィルタ — post-training成果物
whats-newの「Behavior changes」セクションにはこんな表現があります。
- “More literal instruction following”(より字義通りに指示に従う)
- “More direct, opinionated tone with less validation-forward phrasing and fewer emoji than Claude Opus 4.6’s warmer style”
- “Fewer tool calls by default”
- “Fewer subagents spawned by default”
「Opus 4.6より温かみが減った」をAnthropicが自ら公式ドキュメントに書いているのが面白い。これらの変化はコード修正ではなく、post-training段階のチューニング成果です。Constitutional AIの原則ドキュメント更新 + RLHFの選好データ再収集で作られる領域。
その具体的レシピは — はい、公開されていません。「絵文字を減らすようにreward modelのweightをいくつにした」というディテールはAnthropicが公開しない。公式非公開の領域です。
サイバーセキュリティ側は少し違う。「Real-time cybersecurity safeguards」が追加されたというのは実行時フィルタ層が強化されたということ。モデルが生成した後にフィルタがブロックすることも、モデル自身が生成中に停止することもあり得ます。正当なセキュリティ研究者のためには Cyber Verification Program という別申請経路が用意されています。この部分はOpenAIがGPT-5系列で強化した「safety policies」と性質が近い。
9. Constitutional AIと憲法 — Anthropicが公開したpost-training
4.6 → 4.7のpost-trainingレシピは非公開と書いたけれど、AnthropicはConstitutional AI自体についてはかなり多くを公開してきました。
公開されているもの:
– Constitutional AI手法そのもの(2022 論文): AIが自分の回答を自己批判・自己修正するよう「原則ドキュメント(憲法)」を与え、それを基盤にRLAIF(RL from AI Feedback)を行う
– Claudeの憲法ドキュメント(2023初公開、2026-01改訂版公開): モデルが従う原則リストが実テキストとして公開されている
– 憲法の改訂履歴: 原則がどう変わってきたかを追跡可能
公開されていないもの:
– 4.6 → 4.7のあいだに憲法テキストが具体的にどう変わったか(公式発表なし、Anthropic発表なし)
– RLHFで使うreward modelの構造・サイズ
– 選好データ収集方法のディテール
– 「絵文字を減らすようにチューニングした」の内部メカニズム
つまりClaudeのpost-trainingは「哲学は公開、エンジニアリングのディテールは非公開」の構造です。競合のOpenAI・Googleも似ています。この非対称がLLM業界の興味深い情報構造で — これはP3で別途扱います。
10. GPT-5.1 → 5.2も同じパターン — System Card Update方式
Anthropicがwhats-newドキュメントでマイナーアップグレードを公開するやり方は、OpenAIの「System Card Update」とほぼ同じです。
OpenAIが2025-12-11にGPT-5.2を出したときに公開されたもの:
– “GPT-5.2 Thinking hallucinates approximately 30% less than GPT-5.1 Thinking”
– System Cardドキュメントにベンチ結果・safety評価を追加
– 2026-03-11の自動マイグレーション(5.1 deprecate)
数値は公開するけれど、モデルアーキテクチャ・パラメータ・学習データは非公開。このパターンはAnthropicもOpenAIも完全に同じ。増分公開(incremental disclosure) と呼べる業界標準が定着しています。
個人的な解釈を言うと — Anthropicがwhats-new、OpenAIがSystem Card Updateをこういう形で使っているということは、2社とも「モデルが内部工程を一周するたびにpublic releaseとして出荷するパイプライン」を持っている、ということです。4.6から4.7まで半年。5.1から5.2まで3か月。この周期が今後のAIのしくみ地図を組むときの基準になります。
11. FAQ
Q1. HaikuはOpusのdistillationという話は本当ですか?
公式非公開。AnthropicはHaiku・Sonnet・Opusの関係についてdistillationの有無を明かしたことがありません。業界で一般的に使われる手法ではありますが、Anthropicがその手法を使ったかどうかは公式確認されていない推測です。
Q2. パラメータ数を推定している記事を見ましたが信頼できますか?
信頼する根拠がありません。Claude 3以降、Anthropicはパラメータ数を非公開にするポリシーを維持しており、出回っている推定値はすべて業界推論・leakレベルです。技術記事で断定的にパラメータ数を語っている記事は、まず一歩引いて読むのが安全です。
Q3. 4.7で temperature=0 は本当に使えないのですか?
temperature 自体をrequestに入れなければデフォルト値で動きます。non-default値(0を含む)を明示的に入れると400エラー。既存コードで temperature=0 がハードコーディングされている場合は、その行を削除すればいい。
Q4. Opus 4.7はOpus 4.6より高いですか?
Anthropic公式価格は入力$5 / 出力$25で 4.6と同一。ただし新トークナイザーが同じテキストを最大1.35倍のトークン数で数えるため、体感コストは上がります。これを隠れた値上げと見る向きもあります。
Q5. Sonnet 4.6とOpus 4.7、どういう場面でどちらを使うべき?
Anthropic公式の推奨は「複雑な推論・エージェンティックコーディングはOpus 4.7、速度・知能のバランスはSonnet 4.6」。1Mコンテキストは両方が対応するので、長コンテキストが必要かどうかではなく作業の推論難度がどれくらいかで切るのが正解です。
12. 次の編 — P2 API呼び出し
今回の記事は「Claudeファミリーの中で何がどう違うのか」を整理しました。P2では一段降りて実際にClaude APIを呼び出すときに何が起きているかを扱います。
- Messages APIがどう設計されているか
system、messages、tools、output_configの役割分担- adaptive thinkingを使ったときの応答が実際どう返ってくるか(ストリーム構造)
- prompt cachingと1Mコンテキストのコスト最適化
技術ブログっぽくなく書こうと努力していますが、このシリーズではどうしてもAPIの話が続きます。P2まで来ていただければ、Claudeの全製品(Claude Code、Claude for Browser、Computer use)がこの上に乗っていることが見えてきます。
13. 出典
- Claude models overview (Anthropic) — 3モデルの公式スペック・価格・コンテキスト
- What’s new in Claude Opus 4.7 (Anthropic) — 4.6 → 4.7 breaking changes全文
- Claude Opus 4.7 announcement (Anthropic) — リリース公式発表
- Constitutional AI v2 paper (Anthropic PDF) — CAI原論文
- Claude’s Constitution (Anthropic) — 憲法公開ページ
- Introducing GPT-5.2 (OpenAI) — 比較用
- GPT-5.2 System Card (OpenAI PDF) — System Card Updateパターン比較
📬 毎週月曜日、AIのしくみ地図の新作と今週のAIトピックをニュースレターで配信しています。登録はshuntailor.net右下から。
著者: VibeCoding Tailor
サイト: shuntailor.net