📚 전체 지도 보기
GPT·Claude·Gemini·Grok ― 클로즈드 4사의 기술 전략 차이
“요즘 모델들 다 비슷하지 않아요?”
최근 이 질문을 꽤 자주 받습니다.
GPQA Diamond 벤치 94%대, MMLU 90%대, 코딩도 다 SWE-bench 80% 위쪽. 숫자만 쭉 늘어놓으면 납득이 갑니다. 상위권의 차이는 거의 소멸했습니다.
그런데 같은 숫자 아래에서, 회사 네 곳은 완전히 다른 곳을 향해 달리고 있습니다.
- OpenAI는 툴·에이전트 인프라 회사가 되려 하고
- Anthropic은 안전·헌법 회사로 남으려 하고
- Google은 멀티모달·자체 칩·2M 컨텍스트 회사
- xAI는 pretraining-scale RL 회사
이 글은 “어느 회사가 제일 똑똑한가” 같은 질문이 아닙니다. 엔지니어링 수준에서 무엇이 다른가를 네 덩어리로 잘라서 보는 글입니다.
클로즈드(closed) 라는 말을 쓰는 이유도 뒤에서 짚습니다. xAI의 Grok은 2024-03 Grok-1만 Apache 2.0으로 가중치가 공개됐고, 이후 Grok 2·3·4·4.1·4.20은 전부 API 전용 클로즈드입니다. “오픈 같아 보이지만 오픈이 아닌” 포지션이에요.
순서는 이렇습니다.
- 4사 한눈에 비교
- OpenAI = 툴·에이전트 인프라
- Anthropic = 안전·헌법
- Google = 멀티모달·인프라·자체 칩
- xAI = pretraining-scale RL + 클로즈드
- 벤치 수렴 → 새 분기점은 어디로 움직였나
- 가격 전쟁 ― 초저가 vs Pro 프리미엄
- FAQ
1. 4사 한눈에 비교 (2026-04 기준)
| Lab | Flagship | $/1M in·out | Context | 핵심 지표 |
|---|---|---|---|---|
| OpenAI | GPT-5.4 | $2.50 / $15 (Pro $30 / $180) | 1.05M (>272K 2x/1.5x) | OSWorld 75% · Codex |
| Anthropic | Opus 4.7 | $5 / $25 (Sonnet $3/$15) | 1M | SWE-bench Verified 87.6% |
| Gemini 3.1 Pro | $2 / $12 (>200K $4/$18) | 2M | MMMU-Pro 81% · Deep Think GPQA 93.8% | |
| xAI | Grok 4.20 | $2 / $6 (4.1 Fast $0.20/$0.50) | 2M | 4-agent · GPQA 88% |
이 표만 봐도 가격 밴드와 컨텍스트가 제각각이라는 게 보입니다. 여기서부터가 본론입니다.
2. OpenAI = 툴·에이전트 인프라 회사
GPT-5.4를 “모델”이라고만 보면 전략을 놓칩니다. OpenAI가 지난 1년 동안 밀어 넣은 건 모델이 아니라 모델이 돌아가는 OS 레이어입니다.
가격 구조에 전략이 박혀 있다
GPT-5.4는 입력 $2.50 / 출력 $15. 하지만 272K 토큰을 넘기는 순간 입력이 2배, 출력이 1.5배로 뛰는 구간 과금이 들어갑니다. 1.05M 컨텍스트를 “제공은 한다”고 하면서 실제로는 비용으로 스로틀링을 건 구조예요.
반대로 mini는 $0.75 / $4.50, nano는 $1 미만, Pro는 $30 / $180. 밴드가 50배 넘게 벌어진 라인업입니다. 이건 “한 모델이 모든 걸 한다”가 아니라 “툴이 알아서 모델을 고른다”는 설계예요.
Computer use·Codex·tool search
엔지니어 눈으로 봐야 차이가 보이는 부분은 여기입니다.
- Computer use (OSWorld 75%): 브라우저·파일 시스템·OS UI를 모델이 직접 조작. 이건 모델만 좋아서 되는 게 아닙니다. 스크린샷 파이프라인, 좌표 정규화, 액션 안전 검증까지 인프라 묶음이에요.
- Codex 통합: 에이전트가 장시간 리포 위에서 작업할 때 필요한 harness를 OpenAI 자체가 제공.
- Tool search / conversation compaction: 툴이 많아지면 선택 비용이 폭증하는 문제를 모델 바깥 검색 레이어로 해결.
Anthropic이 “모델의 품질”로 승부하고 있다면, OpenAI는 “모델을 둘러싼 OS”로 승부하는 중입니다. 같은 GPT-5.4를 쓰더라도 System Card Update가 5.1 → 5.2 → 5.3 증분 공개 형식으로 굴러간다는 점도 이 전략과 맞물립니다. 모델 릴리스보다 인프라 업데이트가 더 잦아요.
엔지니어링적으로 읽으면
Training methodology는 비공개. 공식 논문도 없고 weight도 없고 파라미터 수도 “공개 안 함” 입니다. 대신 OpenAI가 공개하는 건 System Card·Pricing·Tool 쪽 문서들. 바깥에서 보이는 전략이 “우리는 모델 사실관계를 열지 않는다. 대신 플랫폼을 연다” 로 정렬돼 있습니다.
3. Anthropic = 안전·헌법 회사
Anthropic은 반대로 방법론을 가장 열어둔 랩입니다. 물론 가중치는 안 열지만, 훈련·정렬의 프레임워크는 문서로 풀어둡니다.
Constitutional AI / RLAIF
Claude 계열이 “Constitutional AI”라는 방법론 위에 서 있다는 건 2022년부터 공개된 사실이고, 2026-01에는 Constitution 개정판이 업데이트로 공개됐습니다. 여기서 핵심은 RLAIF(Reinforcement Learning from AI Feedback) — 사람이 모든 페어를 평가하지 않고, 헌법에 맞춰 모델이 self-critique하며 정렬합니다.
비교 지점:
– OpenAI의 정렬 방법론은 구체 파이프라인이 비공개.
– xAI는 model card에서 RL이 전체 훈련 예산의 약 50%라고 숫자까지 까는데, “무엇을 위해 최적화하는지”의 상위 프레임이 Anthropic만큼 구조화돼 있진 않습니다.
SWE-bench Verified 87.6%
Opus 4.7이 가장 잘 설명되는 지점이 코딩입니다. SWE-bench Verified 87.6%는 현시점 공개 상위권. 왜 Anthropic이 코딩에 강하냐 — 공식 이유는 안 나옵니다만, 헌법 기반 정렬이 “긴 작업을 중간에 포기하지 않는 행동 규범”과 잘 맞는다는 업계 분석이 있습니다. (공식 미공개·업계 해석)
Project Glasswing
2026년에 들어 Anthropic이 강조하는 새 레이어가 Project Glasswing — 모델 내부 활성화를 관측·제어하는 안전장치입니다. 구체 구현은 비공개지만, System Card에서 언급되는 방향성이 확실합니다.
엔지니어링적으로 읽으면
Anthropic은 “우리는 왜·어떻게 정렬하는가를 글로 공개한다. 대신 모델 내부 수치는 공개하지 않는다”. 가격 정책도 단순합니다 — Opus $5/$25, Sonnet $3/$15, Haiku $1/$5. 티어가 3단이고 컨텍스트 과금 트릭이 없습니다. 가격 구조 자체가 “모델 티어로만 판다”는 메시지예요.
4. Google = 멀티모달·인프라·자체 칩 회사
Gemini 3.1 Pro를 한 단어로 요약하면 “인프라로 이긴다”입니다.
2M context와 티어 과금
컨텍스트 2M은 현 시점 공개 최대치입니다. 과금 구조도 투명해요 ― ≤200K $2/$12, >200K $4/$18. OpenAI처럼 “1M 허용하지만 272K부터 요금 껑충”이 아니라 단순 두 구간. 엔지니어 입장에서 예산 계산이 깔끔합니다.
멀티모달 1위
- MMMU-Pro 81% (멀티모달 추론)
- ScreenSpot-Pro 72.7% (비전 GUI 이해 1위)
- LMArena Elo 1501
ScreenSpot-Pro는 특히 의미가 큽니다. OpenAI의 Computer use가 “스크린샷 + 액션” 파이프라인 전체의 강점이라면, Gemini는 “스크린샷 이해” 자체에서 앞서 있습니다. 이후 에이전트 GUI 분기에서 결정적 우위로 돌아올 수 있는 지표예요.
Deep Think
Gemini 3.1 Pro에는 별도의 추론 집약 모드 Deep Think가 붙습니다. GPQA Diamond 93.8%. 이건 “더 오래 생각하게 하면 점수 올라감”을 공식 제품화한 형태인데, OpenAI o-series와 Anthropic extended thinking이 같은 방향이긴 해도 Google은 이걸 컨텍스트·멀티모달과 엮어서 판매합니다.
자체 칩 (TPU)
가장 구조적인 차이는 훈련·서빙 인프라입니다. OpenAI·Anthropic은 NVIDIA H100/H200/B200에 의존합니다. Google은 TPU를 자체 설계·운영합니다. 이게 가격 구조의 밑받침이에요 ― 2M 컨텍스트를 $2/$12에 팔면서 마진을 낼 수 있는 이유가 하드웨어 스택까지 수직 통합돼 있기 때문입니다.
엔지니어링적으로 읽으면
Google의 메시지는 “우리는 하드웨어·컨텍스트·멀티모달 세 축으로 판다”. 이 세 축 모두에서 다른 랩들이 따라오기 어렵습니다. TPU는 하루아침에 못 만들고, 2M은 인프라 없으면 못 팔고, 멀티모달 데이터셋도 수년 축적의 결과거든요.
5. xAI = pretraining-scale RL + 클로즈드
여기가 2026년에 가장 “흥미롭고 과소평가된” 랩입니다.
Grok은 “오픈”이 아니다
먼저 바로잡을 것. Grok-1은 2024-03에 Apache 2.0으로 가중치가 공개됐습니다. 그 이후 Grok 2, 3, 4, 4.1, 4.20은 전부 가중치 비공개 · API 전용입니다. “Grok은 오픈소스 아니냐”는 질문을 종종 받는데, 2024-03 한 번 이후로는 아닙니다. xAI는 완전히 클로즈드 랩입니다.
Colossus와 RL 예산 50%
2025-08-20 공개된 Grok 4 model card에는 꽤 센 숫자가 적혀 있습니다.
- Colossus 클러스터: 약 30만 GPU (업계 최대급)
- RL이 전체 훈련 예산의 약 50% — 일반적인 “pretraining 90% + RLHF 소량” 공식을 뒤집은 비율
이게 왜 의미가 있냐면, 기존 LLM 훈련 공식은 “거대 pretraining → 소규모 RLHF 정렬”이었습니다. xAI는 이 비율을 반으로 뒤집어서, RL 자체를 pretraining과 동급 스케일로 돌립니다. model card가 직접 밝힌 전략입니다.
4-agent 아키텍처가 모델 자체에 내장
Grok 4의 또 다른 특이점 — 4개의 에이전트가 병렬로 답안을 생성해 합의하는 구조가 모델 레벨에 내장돼 있습니다. 일반 LLM은 “추론 체인 하나”를 내놓지만, Grok 4는 내부에서 4개가 돌고 하나가 나옵니다. GPQA 88% 숫자 뒤에 이 구조가 있어요.
실시간 X 통합 · knowledge cutoff 2024-11
- X(Twitter) 실시간 검색이 기본 내장 — 다른 랩이 별도 tool로 붙여야 하는 걸 xAI는 “우리는 X를 가지고 있다”로 해결.
- knowledge cutoff는 2024-11 — 다른 플래그십보다 오래됐습니다. 근데 실시간 X가 있으니 큰 문제 아니라는 포지션.
가격: 가장 공격적
- Grok 4.20: $2 / $6 — GPT-5.4 입력 동가·출력 반값
- Grok 4.1 Fast: $0.20 / $0.50 — 거의 Haiku·nano 라인
“저가 + pretrain-RL + 실시간 X”로 미디어·소셜 워크로드에 최적화된 랩으로 읽어야 합니다. 범용 품질로 Opus·Gemini를 제치려는 전략이 아니에요.
엔지니어링적으로 읽으면
“우리는 RL을 pretraining 스케일로 돌릴 수 있는 유일한 랩이다. 그리고 X라는 데이터 독점 소스가 있다.” 가중치는 안 연다. Grok-1만 열어두고 나머지는 전부 API.
6. 벤치 수렴 → 새 분기점은 어디로 움직였나
| Lab | 향하는 방향 | 보여지는 지표 |
|---|---|---|
| OpenAI | 툴·에이전트 OS 레이어 | OSWorld 75% · Computer use · Codex |
| Anthropic | 안전·헌법·코딩 정렬 | SWE-bench 87.6% · Constitution · Glasswing |
| 멀티모달 · 2M · 자체 칩 | MMMU-Pro 81% · ScreenSpot 72.7% · TPU | |
| xAI | pretraining-scale RL · X 데이터 | RL 예산 50% · 4-agent · Colossus 300K GPU |
GPQA Diamond만 봅시다. 2026-04 기준:
- Opus 4.7: 94.2%
- GPT-5.4 Pro: 94.4%
- Gemini 3.1 Pro (Deep Think): 93.8% (표준 모드 기준 다른 수치)
- Grok 4.20: 88%
상위 3개는 소수점 차이입니다. 이 정도면 일반 실무에서 “어느 게 더 똑똑한가”라는 질문 자체가 의미가 없어지는 구간이에요.
그래서 차이가 실제로 나는 벤치가 뭐냐가 중요해집니다.
- SWE-bench Verified: 긴 코딩 워크플로우. Opus 4.7 87.6%로 1위. 코딩 에이전트에서는 여전히 Anthropic 우위.
- OSWorld: OS 레벨 computer use. GPT-5.4 75%로 1위. 화면 조작 에이전트는 OpenAI.
- MMMU-Pro: 멀티모달 추론. Gemini 3.1 Pro 81%로 1위. 이미지·PDF·차트 이해는 Google.
즉 일반 지식 벤치는 포화됐고, 특정 분기점 — 코딩(Anthropic) · OS 조작(OpenAI) · 멀티모달(Google) · 미디어/소셜(xAI) — 으로 선택 기준이 이동했습니다.
“요즘 모델은 다 비슷해요”라고 말하는 분들이 놓치는 게 여기예요. 일반 지식 벤치는 비슷한 게 맞습니다. 그런데 실제 워크로드는 저 네 축 중 하나에 실립니다.
7. 가격 전쟁 ― 초저가 vs Pro 프리미엄
가격을 세 밴드로 자르면 구조가 보입니다.
초저가 밴드 (≤$1/1M)
– Haiku 4.5: $1 / $5
– GPT-5.4 nano: $1 미만
– Grok 4.1 Fast: $0.20 / $0.50 ← 가장 공격적
이 밴드는 라우팅·분류·대량 배치 처리용입니다. “에이전트 내부에서 수백 번 호출되는 보조 모델” 포지션.
표준 밴드 ($2~$5 in, $6~$18 out)
– GPT-5.4: $2.50 / $15
– Claude Sonnet: $3 / $15
– Gemini 3.1 Pro: $2 / $12 (≤200K)
– Grok 4.20: $2 / $6
여기가 전쟁터입니다. Grok의 출력 $6이 특히 파격적이에요. 같은 GPT-5.4 대비 2.5배 저렴. 일반 실무 워크로드라면 비용으로 Grok이 끌어당깁니다.
Pro 프리미엄 ($25~$180)
– Claude Opus 4.7: $5 / $25
– GPT-5.4 Pro: $30 / $180 ← 가장 비쌈
Pro 밴드는 “모든 걸 쏟아붓는 한 번의 호출”에 쓰는 가격입니다. GPT-5.4 Pro 출력 $180은 다른 Pro 밴드 대비 7배. Codex·Computer use 같은 장시간 에이전트에서 품질 최적화를 위해 들어가는 영역이에요.
Gemini의 구간 과금은 혼자 다른 축: 컨텍스트 ≤200K에서 $2/$12, >200K에서 $4/$18. 200K 안에서 놀면 싸고, 넘기면 살짝 비싸집니다. OpenAI의 “272K 이후 2x/1.5x”보다 선형적이고 예측 가능해요.
실무 팁 하나 ― 한 에이전트 안에서 “대량 호출은 초저가 밴드 + 중요한 결정만 표준 밴드”로 섞는 게 2026년의 기본 구성입니다. 한 모델로 다 돌리는 시대는 끝났어요.
8. FAQ
Q1. “요즘 모델 다 비슷하다”는 말은 맞는 말인가요?
반은 맞고 반은 틀립니다. GPQA·MMLU 같은 일반 지식 벤치는 상위권이 94%대로 수렴해서 차이가 거의 없습니다. 그런데 SWE-bench·OSWorld·MMMU-Pro처럼 특정 워크로드 벤치는 여전히 5~10% 단위로 벌어져 있어요. “지식 질문”은 아무거나 써도 되고, “코딩·OS 조작·멀티모달”은 랩을 골라야 합니다.
Q2. Grok이 오픈소스 아닌가요?
Grok-1만 2024-03 Apache 2.0으로 공개됐습니다. 그 이후 나온 Grok 2, 3, 4, 4.1, 4.20은 전부 가중치 비공개, API 전용 클로즈드 모델입니다. xAI는 “초반에 한 번 공개했다”는 제스처를 남긴 후 완전히 클로즈드 전략으로 돌아섰어요.
Q3. Pro 밴드($25~$180)는 언제 쓰는 건가요?
장시간 에이전트 안에서 “이 호출이 전체 작업의 성공/실패를 가른다”는 지점에서 씁니다. 코드 리포 전체 리뷰, 긴 PDF 의사결정, 멀티 스텝 계획 수립 같은 곳. 대부분의 일반 작업은 표준 밴드 + 초저가 밴드 믹스로 충분합니다. Pro 밴드를 기본 모델로 두면 비용이 빠르게 터집니다.
Q4. 네 랩 중 하나만 골라 쓴다면?
워크로드에 따라 갈립니다. 코딩 중심이면 Anthropic (SWE-bench), 브라우저·OS 자동화면 OpenAI (OSWorld), 2M 컨텍스트·이미지·PDF·자체 칩 기반 가격이 필요하면 Google (Gemini), X 실시간 데이터·초저가 대량 호출이면 xAI (Grok 4.1 Fast). “하나만”이 아니라 에이전트 안에서 세 개 이상 섞는 게 2026년 실무 기본입니다.
9. 다음 편 안내
P 시리즈 다음 편은 P5: 오픈소스 3강 — Llama·Qwen·DeepSeek입니다. 클로즈드 4사와 달리, 이쪽은 실제로 가중치를 공개합니다. 그러면 “가격”이 아니라 “서빙 비용·fine-tuning 자유도·온프레미스 운영”이 새로운 축이 돼요. 같은 기준(훈련 방법론·아키텍처·제품 전략)으로 비교합니다.
소스 리스트
- OpenAI API Pricing: https://openai.com/api/pricing/
- GPT-5.4 Model Docs: https://developers.openai.com/api/docs/models/gpt-5.4
- Introducing GPT-5: https://openai.com/index/introducing-gpt-5/
- Claude Pricing: https://claude.com/pricing
- Claude Model Overview: https://platform.claude.com/docs/en/about-claude/models/overview
- Anthropic System Cards: https://www.anthropic.com/system-cards
- Gemini Pro: https://deepmind.google/models/gemini/pro/
- Gemini 3.1 Pro Announcement: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
- xAI API: https://x.ai/api
- xAI Developer Docs: https://docs.x.ai/developers/models
- Grok 4 Release Note: https://x.ai/news/grok-4
- Grok 4 Model Card (PDF, 2025-08-20): https://data.x.ai/2025-08-20-grok-4-model-card.pdf
- Artificial Analysis Leaderboard: https://artificialanalysis.ai/leaderboards/models
- ◀ 앞 편: P3. 컴퓨팅·GPU 경제학
- 지금 편: P4. 클로즈드 LLM 4사 기술 전략 차이
- ▶ 다음 편: P5. 오픈소스 3강 (Llama·Qwen·DeepSeek)
뉴스레터 CTA
이런 식으로 “벤치가 아니라 전략”을 비교하는 글을 매주 월요일 아침 메일로 보냅니다. 받아보고 싶으면 뉴스레터 회원가입(무료·30초)에서 신청하세요.




