📍 AI 공부 지도 — 24/29편

이 글은 AI의 기초부터 Meta-Harness·응용 비교까지 순서대로 읽는 29편 시리즈의 24편입니다.
📚 전체 지도 보기

← 이전 편: M10. Meta-Harness 실무 · 다음 편: P2. API로 LLM 호출 →

📚 이 글을 읽기 전에: P 시리즈는 22편 시리즈를 이미 읽으신 독자를 가정합니다. 특히 F1 LLM·F2 Transformer·F6 학습·B2 프롬프트 메커니즘이 핵심.

Table of Contents

Haiku·Sonnet·Opus의 기술적 차이와 4.7 업그레이드 메커니즘

“Haiku는 빠르고 싸고, Sonnet은 중간, Opus는 느리고 비싸고 똑똑해.”

이 정도는 Anthropic 공식 홈페이지 10초만 봐도 나오는 얘기입니다. 그런데 “왜 그런 건데?”라고 한 번 더 물어보면 대부분 거기서 멈춰요.

파라미터 수가 달라서? — 공개된 적 없습니다.
아키텍처가 달라서? — 공개된 적 없습니다.
Opus를 증류(distill)해서 Haiku를 만드는 건가? — 공개된 적 없습니다.

세 모델의 “기술적 차이”로 알려진 것 중 아키텍처 레벨에서 확정적으로 공개된 건 사실상 없습니다. 이건 Anthropic이 숨기는 게 아니라, 의도적으로 비공개 정책을 유지하는 영역이에요. 그리고 그걸 모르고 쓴 비교표가 한국어 인터넷에 너무 많습니다.

이 글은 두 가지를 합니다.

Haiku·Sonnet·Opus에 대해 Anthropic이 공식으로 공개한 것과 의도적으로 비공개로 둔 것을 분리해서 정리한다.
2026년 4월 Opus 4.6 → 4.7 마이너 업그레이드에서 실제로 바뀐 6가지를 공식 문서(whats-new-claude-4-7) 그대로 읽어 본다.

P 시리즈의 출발점이고, 이후 글들은 다 여기서 파생됩니다.

1. Anthropic이 의도적으로 공개하지 않는 것 — 이걸 먼저 인정하고 가자

Claude 3 모델 카드부터 공식 정책이 이렇습니다.

파라미터 수 — 비공개
레이어 수·어텐션 헤드 수 — 비공개
학습 데이터의 구체 구성 — 개략만 공개
Haiku가 Opus의 distillation인지 — 비공개
4.6 → 4.7 post-training의 구체 레시피 — 비공개

OpenAI도 GPT-3.5 이후로는 같은 방향이고, Google Gemini도 Gemini 1부터 같습니다. 프론티어 모델 회사가 2024년 이후 기술 디테일 공개를 접은 건 업계 공통 흐름이에요.

그래서 “Haiku는 몇 B 파라미터”라는 숫자가 돌아다니면, 그건 사실이 아니라 업계 추정입니다. 안 쓰는 게 맞아요. 공식 미공개를 사실처럼 얘기하면 그 뒤에 이어지는 비교는 전부 모래 위에 짓는 집입니다.

그럼 우리가 확실히 아는 건 뭐냐? 의외로 꽤 많습니다.

2. 공개된 차이 — 가격·컨텍스트·레이턴시·사고 모드

2026년 4월 기준, Anthropic 공식 overview 페이지가 명시한 스펙은 이렇습니다.

FIG 1 · CLAUDE 4 FAMILY — 공식 공개 스펙



Opus 4.7
Sonnet 4.6
Haiku 4.5

포지셔닝
most capable
best combo of speed+intel
fastest, near-frontier

입력 / 출력 ($/1M)
$5 / $25
$3 / $15
$1 / $5

컨텍스트 윈도우
1M tokens
1M tokens
200k tokens

최대 출력
128k
64k
64k

레이턴시 (정성)
Moderate
Fast
Fastest

Extended thinking
No
Yes
Yes

Adaptive thinking
Yes
Yes
No

파라미터 수
공식 비공개 (세 모델 모두)
출처: platform.claude.com/docs/en/about-claude/models/overview (2026-04 기준)

여기서 몇 가지 짚고 갈 게 있어요.

(1) 레이턴시는 정성 표현만 공개된다. “ms 단위 평균 응답 시간” 같은 숫자는 Anthropic이 공개하지 않습니다. Fastest > Fast > Moderate 라는 순서만 확정이에요. 서드파티 벤치(예: Artificial Analysis)가 측정한 TPS는 참고용이지 Anthropic 공식이 아닙니다.

(2) 가격 격차가 곧 “지능 격차”는 아니다. Haiku 4.5는 Anthropic 공식 표현으로 “fastest model with near-frontier intelligence”입니다. 프론티어에 가깝다, 즉 Opus와의 간격이 크지 않다고 Anthropic이 직접 말한 것. 가격 5배 차이가 품질 5배 차이가 아니라는 뜻이에요.

(3) Opus 4.7만 adaptive thinking 전용, Haiku 4.5는 extended thinking 전용, Sonnet 4.6은 둘 다. 이건 4.7에서 벌어진 가장 큰 API 변화라서 뒤에서 따로 다룹니다.

(4) Haiku만 컨텍스트가 200k. 컨텍스트 1M은 Opus·Sonnet 한정. 이건 토큰 더 많이 처리할수록 메모리·KV cache 비용이 quadratic하게 늘기 때문에 — 가격이 저렴한 Haiku에서 1M을 지원하면 마진이 나오지 않는 구조로 추정됩니다(업계 추정·Anthropic 공식 설명 없음).

여기까지가 “공개된 차이”입니다. 그럼 본론.

3. Opus 4.6 → 4.7 마이너 업그레이드 — 실제로 뭐가 바뀌었나

2026-04-16, Anthropic이 Opus 4.7을 내놓으면서 공개한 whats-new 문서를 그대로 읽어 보면, 바뀐 건 6가지입니다. 메이저 버전(3 → 4)도 아닌 4.6 → 4.7 마이너 업데이트인데도 breaking change가 이 정도로 들어갑니다.

FIG 2 · OPUS 4.6 → 4.7 — 6가지 변경점

① TOKENIZER 교체

같은 텍스트가 1x ~ 1.35x 토큰 소비. 토큰 카운팅 API 결과 자체가 달라짐.

② VISION 확장

최대 1568px / 1.15MP → 2576px / 3.75MP. 좌표 1:1 매핑.

③ THINKING 재설계

extended thinking budget 제거 → adaptive thinking 단일. budget_tokens 쓰면 400 에러.

④ SAMPLING 파라미터 제거

temperature · top_p · top_k 전부 non-default 값 넣으면 400 에러.

⑤ 행동 튜닝

직설적 톤 · 이모지 감소 · 툴콜 절제 · 서브에이전트 기본값 축소.

⑥ 사이버보안 런타임 필터

real-time cybersecurity safeguards 추가. 정당한 보안 업무는 Cyber Verification Program.

출처: platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-7

이걸 하나씩 왜 바꿨는지, 어떤 의미인지 풀어 봅니다.

4. Tokenizer 교체 — 왜 같은 문장이 토큰을 더 먹는가

가장 이해가 안 되는 변경점일 거예요.

“아니, 모델 좋아졌다면서 같은 텍스트가 토큰이 더 들어? 비용이 올라가잖아?” 네. 실제로 올라갑니다. 워크로드에 따라 최대 35%까지.

그런데 Anthropic이 공식 문서에서 이걸 이렇게 표현합니다:

“Claude Opus 4.7 uses a new tokenizer, contributing to its improved performance on a wide range of tasks.”

— 새 토크나이저가 성능 향상에 기여했다. 즉 토큰을 더 먹는 게 아니라, 모델이 텍스트를 더 잘게 쪼개서 더 정교하게 이해하도록 만든 게 이번 토크나이저 교체입니다.

토큰이 무엇인지, 왜 BPE가 단어의 일부를 쪼개는지가 헷갈린다면 F1. LLM 이해 2번 섹션을 먼저 읽고 오세요. 거기서 깔아둔 개념으로 설명하면:

기존 토크나이저가 unbelievable을 [un][believ][able] 3토큰으로 쪼갰다면
새 토크나이저는 [un][believ][abl][e] 처럼 더 잘게 쪼개서 4토큰으로 만들 수 있다

쪼개는 단위가 더 작을수록 모델은 subword 조합을 더 자유롭게 사용할 수 있습니다. 대신 같은 원본 텍스트가 더 많은 토큰으로 표현돼요. 새 tokenizer가 특별히 잘 다루는 언어·도메인도 있을 텐데 그 디테일은 Anthropic이 공개하지 않았습니다 — 결과치(1x ~ 1.35x)만 공개.

개발자에게 주는 실무적 영향:

/v1/messages/count_tokens 결과가 4.6 대비 커진다. 토큰 예산 스크립트를 다 수정해야 한다.
max_tokens 값을 올려야 한다. 특히 compaction trigger가 있는 에이전트는 기준값 재설정 필요.
비용 예측 모델을 다시 계산. 입력이 1.2배 커진다고 가정하면 $5/$25의 체감 비용은 $6/$30에 가까워진다.

이게 마이너 업그레이드에 들어간 이유가 핵심입니다. 토크나이저를 바꾼다는 건 모델을 처음부터 다시 학습한다는 뜻이에요. 토크나이저는 모델 학습의 가장 밑바닥 — 어휘가 바뀌면 임베딩이 바뀌고, 임베딩이 바뀌면 전체 가중치가 의미를 잃습니다.

즉 Opus 4.7은 4.6에서 “살짝 튜닝한 버전”이 아닙니다. 거의 새 모델이에요. 버전 번호만 마이너로 붙었을 뿐.

5. Vision 해상도 3배 — 왜 computer use를 위해서만 봐야 하는가

1568px에서 2576px로. 면적으로는 1.15MP → 3.75MP, 3.26배입니다.

숫자만 보면 “이미지 좀 더 선명하게 보나 보네” 싶지만, 이 변경의 의도는 그게 아닙니다. Anthropic이 명시적으로 쓴 문장:

“particularly important for computer use and screenshot/artifact/document understanding workflows.”

즉 Claude가 스크린샷을 보고 UI를 조작하는 agent 용도를 위해 올린 겁니다.

1568px는 일반 웹페이지 스크린샷의 가로 너비를 잘 커버하지 못해요. 작은 버튼·툴팁·사이드바 글자가 뭉개집니다. 2576px면 4K 디스플레이 스크린샷도 거의 손실 없이 들어갑니다.

여기에 “좌표가 1:1로 매핑된다”는 변경이 더해집니다. 이전에는 모델이 본 이미지 좌표 → 실제 픽셀 좌표로 변환하는 scale-factor 계산이 필요했어요. 4.7부터는 모델이 “x=847, y=512 클릭”이라고 말하면 그대로 실제 픽셀 (847, 512)입니다.

이 두 개가 합쳐지면 computer use agent의 신뢰도가 많이 올라갑니다. 이건 Anthropic의 최근 방향성과 정확히 맞아요 — Opus 4.7의 포지셔닝 자체가 “agentic coding”이고, Claude for Browser, Computer use API, Claude Code 모두 이 해상도 업그레이드의 수혜자입니다.

대신 고해상도 이미지는 토큰을 더 먹어요. 필요 없는 상황이라면 직접 다운샘플링한 뒤 보내라는 게 Anthropic의 명시적 권고입니다.

6. Thinking 재설계 — 왜 extended thinking budget을 없앴나

이게 breaking change 중 가장 큽니다.

4.6까지의 방식:

thinking = {"type": "enabled", "budget_tokens": 32000}

— “32,000 토큰까지 생각해. 그다음 답을 내.”

4.7의 방식:

thinking = {"type": "adaptive"}
output_config = {"effort": "high"}

— “얼마나 생각할지는 네가 정해. 난 effort만 정해줄게.”

Anthropic의 공식 근거는 이거예요:

“Adaptive thinking is the only thinking-on mode, and in our internal evaluations it reliably outperforms extended thinking.”

내부 평가에서 adaptive가 꾸준히 extended를 이겼다는 겁니다. 즉 “고정된 budget을 모델에게 떠넘기는 것”보다 “모델이 문제 난이도에 맞춰 스스로 생각 길이를 조절하는 것”이 결과가 좋다.

이 변경에는 post-training 쪽의 변화가 같이 들어간 것으로 추정됩니다(Anthropic이 디테일 공개하지 않음, 공식 미공개·업계 추정). Adaptive thinking이 제대로 작동하려면 모델이 “이 문제는 내가 얼마나 생각해야 풀리는가”를 자체적으로 판단해야 해요. 그 판단 능력은 post-training(RLHF·Constitutional AI) 단계에서 심어집니다. 레시피 자체는 공개 안 됐습니다.

extended thinking이 여전히 남아 있는 모델도 있어요 — Sonnet 4.6, Haiku 4.5. 즉 Anthropic은 “Opus 4.7에서 adaptive가 이겼다”고 확신했지만 저렴한 모델 전체를 한꺼번에 바꾸지는 않았습니다. 점진적 교체.

실무 영향: 기존 코드에서 budget_tokens를 하드코딩한 Opus 호출은 전부 400 에러를 뱉습니다. 마이그레이션 필수.

7. Sampling 파라미터 제거 — 왜 temperature를 못 쓰게 했나

이게 개인적으로 가장 과감하다고 느낀 변경이에요.

Opus 4.7에서는 temperature, top_p, top_k 전부 non-default 값을 넣으면 400 에러. 이전 세대 LLM API를 써 본 사람은 이게 얼마나 큰 얘기인지 바로 압니다. temperature=0은 “결정론적 출력”을 기대할 때 쓰던 거의 관용적인 설정이에요.

Anthropic의 입장:

“If you were using temperature = 0 for determinism, note that it never guaranteed identical outputs.”

— 애초에 temperature=0이 결정론을 보장한 적도 없다는 겁니다. 팩트예요. 같은 temperature 0이라도 KV cache 경로·배치 구성·하드웨어 상태에 따라 다른 결과가 나옵니다. “결정론을 원하면 sampling이 아니라 프롬프트로 제약하라”는 게 Anthropic의 정책.

즉 4.7에서 sampling 파라미터를 내린 건:

사용자들이 잘못된 기대(결정론 보장)로 쓰는 걸 막고
모델 내부에서 Anthropic이 튜닝한 기본 sampling 설정을 보호하기 위해서

두 번째가 더 크다고 봅니다. Adaptive thinking과 같은 결이에요 — “모델의 행동을 사용자가 파라미터로 강제 조정하는” 인터페이스를 줄이고, “Anthropic이 튜닝한 기본값”을 따르게 만들고 있어요. 뒤집어 말하면 Anthropic이 자사 post-training 산출물에 더 확신을 가지게 됐다는 방증입니다.

프롬프트가 왜 작동하는지에 대한 기본 감이 필요하다면 B2. 프롬프트가 작동하는 메커니즘을 먼저 읽어 보세요. 4.7의 방향은 “파라미터 조절 → 프롬프트 조절”로 이동하고 있습니다.

8. 행동 튜닝과 사이버보안 필터 — post-training 산출물

whats-new의 “Behavior changes” 섹션에는 이런 표현이 있어요.

“More literal instruction following” (더 글자 그대로 지시를 따름)
“More direct, opinionated tone with less validation-forward phrasing and fewer emoji than Claude Opus 4.6’s warmer style”
“Fewer tool calls by default”
“Fewer subagents spawned by default”

“Opus 4.6보다 덜 따뜻하다”를 Anthropic이 스스로 공식 문서에 적었다는 게 재밌습니다. 이 변화들은 코드 수정이 아니라 post-training 단계의 튜닝 결과물이에요. Constitutional AI 원칙 문서 업데이트 + RLHF 선호 데이터 재수집으로 만들어지는 영역.

그 구체 레시피는 — 네, 공개 안 됐습니다. “이모지를 덜 쓰도록 reward model에 weight를 얼마 줬다” 같은 디테일은 Anthropic이 공개하지 않아요. 공식 비공개 영역.

사이버보안 쪽은 조금 달라요. “Real-time cybersecurity safeguards”가 추가됐다는 건 런타임 필터 레이어가 강화됐다는 뜻입니다. 모델이 생성한 다음에 필터가 차단할 수도 있고, 모델 자체가 생성 중에 멈출 수도 있어요. 정당한 보안 연구자를 위해서는 Cyber Verification Program이라는 별도 신청 경로가 있습니다. 이 부분은 OpenAI가 GPT-5 시리즈에서 강화한 “safety policies”와 결이 같습니다.

9. Constitutional AI와 헌법 — Anthropic이 공개한 post-training

4.6 → 4.7의 post-training 레시피는 비공개라고 했지만, Anthropic은 Constitutional AI 자체에 대해서는 꽤 많이 공개해 왔어요.

공개된 것:
– Constitutional AI 기법 자체 (2022 논문): AI가 스스로 답변을 비판·수정하도록 “원칙 문서(헌법)”를 주고, 그걸 기반으로 RLAIF(RL from AI Feedback) 수행
– Claude의 헌법 문서 (2023 최초 공개, 2026-01 개정판 공개): 모델이 따르는 원칙 리스트가 실제 텍스트로 공개됨
– 헌법 개정 이력: 원칙이 어떻게 바뀌어 왔는지 추적 가능

공개되지 않은 것:
– 4.6 → 4.7 사이 헌법 텍스트가 구체적으로 어떻게 바뀌었나 (공식 발표 없음, Anthropic 발표 없음)
– RLHF에서 쓰는 reward model의 구조·크기
– 선호 데이터 수집 방식의 디테일
– “이모지 덜 쓰도록 튜닝했다”의 내부 메커니즘

즉 Claude의 post-training은 “철학은 공개, 엔지니어링 디테일은 비공개” 구조입니다. 경쟁사 OpenAI·Google도 비슷해요. 이 비대칭이 LLM 업계의 흥미로운 정보 구조인데 — 이건 P3에서 따로 다룰 예정입니다.

10. GPT-5.1 → 5.2도 같은 패턴 — System Card Update 방식

Anthropic이 whats-new 문서로 마이너 업그레이드를 공개하는 방식은 OpenAI의 “System Card Update”와 거의 같습니다.

OpenAI가 2025-12-11에 GPT-5.2를 냈을 때 공개된 것:
– “GPT-5.2 Thinking hallucinates approximately 30% less than GPT-5.1 Thinking”
– System Card 문서에 벤치 결과·safety 평가 추가
– 2026-03-11 자동 마이그레이션(5.1 deprecate)

수치는 공개하는데, 모델 아키텍처·파라미터·학습 데이터는 비공개. 이 패턴은 Anthropic이나 OpenAI나 완전히 같아요. 증분 공개(incremental disclosure) 라고 부를 만한 업계 표준이 자리 잡았습니다.

개인적 해석인데 — Anthropic이 whats-new, OpenAI가 System Card Update를 이런 식으로 쓴다는 건, 두 회사 모두 “모델이 내부 공정 한 바퀴를 돌 때마다 public release로 찍어내는 파이프라인”을 갖춘 거예요. 4.6에서 4.7까지 반년. 5.1에서 5.2까지 석 달. 이 주기가 향후 AI 공부 지도를 짤 때 기준이 됩니다.

11. FAQ

Q1. Haiku가 Opus의 distillation(증류)이라는 얘기가 맞나요?
공식 미공개. Anthropic은 Haiku·Sonnet·Opus의 관계에 대해 distillation 여부를 밝힌 적이 없습니다. 업계에서 일반적으로 쓰는 기법이긴 하지만, Anthropic이 그 기법을 썼는지는 공식 확인되지 않은 추정입니다.

Q2. 파라미터 수를 추정한 글을 봤는데 믿을 만한가요?
신뢰할 근거가 없습니다. Claude 3부터 Anthropic은 파라미터 수를 공개하지 않는 정책을 유지하고 있고, 현재 돌아다니는 추정치는 모두 업계 추론·leak 수준입니다. 기술 기사에서 단정적으로 파라미터 수를 얘기하는 글은 일단 한 칸 물러서서 봐도 됩니다.

Q3. 4.7에서 temperature=0을 정말 못 쓰나요?
temperature 자체를 request에 넣지 않으면 기본값으로 동작합니다. non-default 값(0 포함)을 명시적으로 넣으면 400 에러. 기존 코드에서 temperature=0 하드코딩돼 있으면 그 줄을 지우면 됩니다.

Q4. Opus 4.7이 Opus 4.6보다 비싼가요?
Anthropic 공식 가격은 입력 $5 / 출력 $25로 4.6과 동일. 다만 새 토크나이저가 같은 텍스트를 최대 1.35배 토큰으로 세기 때문에 체감 비용은 올라갑니다. 이게 숨은 가격 인상이라고 보는 시각도 있어요.

Q5. Sonnet 4.6이랑 Opus 4.7, 어떤 상황에서 뭘 써야 하나요?
Anthropic 공식 권고는 “복잡한 추론·에이전틱 코딩은 Opus 4.7, 속도·지능 균형은 Sonnet 4.6”. 1M 컨텍스트도 두 모델 다 지원하므로 긴 컨텍스트가 필요하냐가 아니라 작업의 reasoning 난이도가 어느 정도냐로 나누는 게 맞습니다.

12. 다음 편 안내 — P2 API 호출

이번 글은 “Claude 가족 안에서 뭐가 어떻게 다른가”를 정리했어요. P2에서는 한 단계 내려가서 실제로 Claude API를 호출할 때 일어나는 일을 다룹니다.

Messages API가 어떻게 설계되어 있나
system, messages, tools, output_config의 역할 분담
adaptive thinking을 쓸 때 응답이 실제로 어떻게 오는가(스트림 구조)
prompt caching과 1M 컨텍스트의 비용 최적화

기술 블로그 아닌 척 쓰려고 노력 중인데, 이런 시리즈에선 어쩔 수 없이 API 이야기가 계속 나옵니다. P2까지 따라오시면 Claude의 모든 제품(Claude Code, Claude for Browser, Computer use)이 이 위에 얹혀 있다는 게 보여요.