GPT·Claude·Gemini·Grok ― 클로즈드 4사의 기술 전략 차이

📍 AI 공부 지도 — 27/29편
이 글은 AI의 기초부터 Meta-Harness·응용 비교까지 순서대로 읽는 29편 시리즈의 27편입니다.
📚 전체 지도 보기
📚 이 글을 읽기 전에: P 시리즈는 22편 시리즈와 P1(Claude family)을 읽으신 독자 가정. 특히 F1 LLM·F2 Transformer·B1 Agent 핵심.

GPT·Claude·Gemini·Grok ― 클로즈드 4사의 기술 전략 차이

“요즘 모델들 다 비슷하지 않아요?”

최근 이 질문을 꽤 자주 받습니다.

GPQA Diamond 벤치 94%대, MMLU 90%대, 코딩도 다 SWE-bench 80% 위쪽. 숫자만 쭉 늘어놓으면 납득이 갑니다. 상위권의 차이는 거의 소멸했습니다.

그런데 같은 숫자 아래에서, 회사 네 곳은 완전히 다른 곳을 향해 달리고 있습니다.

  • OpenAI는 툴·에이전트 인프라 회사가 되려 하고
  • Anthropic은 안전·헌법 회사로 남으려 하고
  • Google은 멀티모달·자체 칩·2M 컨텍스트 회사
  • xAI는 pretraining-scale RL 회사

이 글은 “어느 회사가 제일 똑똑한가” 같은 질문이 아닙니다. 엔지니어링 수준에서 무엇이 다른가를 네 덩어리로 잘라서 보는 글입니다.

클로즈드(closed) 라는 말을 쓰는 이유도 뒤에서 짚습니다. xAI의 Grok은 2024-03 Grok-1만 Apache 2.0으로 가중치가 공개됐고, 이후 Grok 2·3·4·4.1·4.20은 전부 API 전용 클로즈드입니다. “오픈 같아 보이지만 오픈이 아닌” 포지션이에요.

순서는 이렇습니다.

  1. 4사 한눈에 비교
  2. OpenAI = 툴·에이전트 인프라
  3. Anthropic = 안전·헌법
  4. Google = 멀티모달·인프라·자체 칩
  5. xAI = pretraining-scale RL + 클로즈드
  6. 벤치 수렴 → 새 분기점은 어디로 움직였나
  7. 가격 전쟁 ― 초저가 vs Pro 프리미엄
  8. FAQ

1. 4사 한눈에 비교 (2026-04 기준)

FIG 1. 4사 가격·컨텍스트·플래그십
Lab Flagship $/1M in·out Context 핵심 지표
OpenAI GPT-5.4 $2.50 / $15 (Pro $30 / $180) 1.05M (>272K 2x/1.5x) OSWorld 75% · Codex
Anthropic Opus 4.7 $5 / $25 (Sonnet $3/$15) 1M SWE-bench Verified 87.6%
Google Gemini 3.1 Pro $2 / $12 (>200K $4/$18) 2M MMMU-Pro 81% · Deep Think GPQA 93.8%
xAI Grok 4.20 $2 / $6 (4.1 Fast $0.20/$0.50) 2M 4-agent · GPQA 88%
출처: openai.com/api/pricing · claude.com/pricing · x.ai/api · deepmind.google/models/gemini/pro (2026-04 확인)

이 표만 봐도 가격 밴드와 컨텍스트가 제각각이라는 게 보입니다. 여기서부터가 본론입니다.


2. OpenAI = 툴·에이전트 인프라 회사

GPT-5.4를 “모델”이라고만 보면 전략을 놓칩니다. OpenAI가 지난 1년 동안 밀어 넣은 건 모델이 아니라 모델이 돌아가는 OS 레이어입니다.

가격 구조에 전략이 박혀 있다

GPT-5.4는 입력 $2.50 / 출력 $15. 하지만 272K 토큰을 넘기는 순간 입력이 2배, 출력이 1.5배로 뛰는 구간 과금이 들어갑니다. 1.05M 컨텍스트를 “제공은 한다”고 하면서 실제로는 비용으로 스로틀링을 건 구조예요.

반대로 mini는 $0.75 / $4.50, nano는 $1 미만, Pro는 $30 / $180. 밴드가 50배 넘게 벌어진 라인업입니다. 이건 “한 모델이 모든 걸 한다”가 아니라 “툴이 알아서 모델을 고른다”는 설계예요.

Computer use·Codex·tool search

엔지니어 눈으로 봐야 차이가 보이는 부분은 여기입니다.

  • Computer use (OSWorld 75%): 브라우저·파일 시스템·OS UI를 모델이 직접 조작. 이건 모델만 좋아서 되는 게 아닙니다. 스크린샷 파이프라인, 좌표 정규화, 액션 안전 검증까지 인프라 묶음이에요.
  • Codex 통합: 에이전트가 장시간 리포 위에서 작업할 때 필요한 harness를 OpenAI 자체가 제공.
  • Tool search / conversation compaction: 툴이 많아지면 선택 비용이 폭증하는 문제를 모델 바깥 검색 레이어로 해결.

Anthropic이 “모델의 품질”로 승부하고 있다면, OpenAI는 “모델을 둘러싼 OS”로 승부하는 중입니다. 같은 GPT-5.4를 쓰더라도 System Card Update가 5.1 → 5.2 → 5.3 증분 공개 형식으로 굴러간다는 점도 이 전략과 맞물립니다. 모델 릴리스보다 인프라 업데이트가 더 잦아요.

엔지니어링적으로 읽으면

Training methodology는 비공개. 공식 논문도 없고 weight도 없고 파라미터 수도 “공개 안 함” 입니다. 대신 OpenAI가 공개하는 건 System Card·Pricing·Tool 쪽 문서들. 바깥에서 보이는 전략이 “우리는 모델 사실관계를 열지 않는다. 대신 플랫폼을 연다” 로 정렬돼 있습니다.


3. Anthropic = 안전·헌법 회사

Anthropic은 반대로 방법론을 가장 열어둔 랩입니다. 물론 가중치는 안 열지만, 훈련·정렬의 프레임워크는 문서로 풀어둡니다.

Constitutional AI / RLAIF

Claude 계열이 “Constitutional AI”라는 방법론 위에 서 있다는 건 2022년부터 공개된 사실이고, 2026-01에는 Constitution 개정판이 업데이트로 공개됐습니다. 여기서 핵심은 RLAIF(Reinforcement Learning from AI Feedback) — 사람이 모든 페어를 평가하지 않고, 헌법에 맞춰 모델이 self-critique하며 정렬합니다.

비교 지점:
– OpenAI의 정렬 방법론은 구체 파이프라인이 비공개.
– xAI는 model card에서 RL이 전체 훈련 예산의 약 50%라고 숫자까지 까는데, “무엇을 위해 최적화하는지”의 상위 프레임이 Anthropic만큼 구조화돼 있진 않습니다.

SWE-bench Verified 87.6%

Opus 4.7이 가장 잘 설명되는 지점이 코딩입니다. SWE-bench Verified 87.6%는 현시점 공개 상위권. 왜 Anthropic이 코딩에 강하냐 — 공식 이유는 안 나옵니다만, 헌법 기반 정렬이 “긴 작업을 중간에 포기하지 않는 행동 규범”과 잘 맞는다는 업계 분석이 있습니다. (공식 미공개·업계 해석)

Project Glasswing

2026년에 들어 Anthropic이 강조하는 새 레이어가 Project Glasswing — 모델 내부 활성화를 관측·제어하는 안전장치입니다. 구체 구현은 비공개지만, System Card에서 언급되는 방향성이 확실합니다.

엔지니어링적으로 읽으면

Anthropic은 “우리는 왜·어떻게 정렬하는가를 글로 공개한다. 대신 모델 내부 수치는 공개하지 않는다”. 가격 정책도 단순합니다 — Opus $5/$25, Sonnet $3/$15, Haiku $1/$5. 티어가 3단이고 컨텍스트 과금 트릭이 없습니다. 가격 구조 자체가 “모델 티어로만 판다”는 메시지예요.


4. Google = 멀티모달·인프라·자체 칩 회사

Gemini 3.1 Pro를 한 단어로 요약하면 “인프라로 이긴다”입니다.

2M context와 티어 과금

컨텍스트 2M은 현 시점 공개 최대치입니다. 과금 구조도 투명해요 ― ≤200K $2/$12, >200K $4/$18. OpenAI처럼 “1M 허용하지만 272K부터 요금 껑충”이 아니라 단순 두 구간. 엔지니어 입장에서 예산 계산이 깔끔합니다.

멀티모달 1위

  • MMMU-Pro 81% (멀티모달 추론)
  • ScreenSpot-Pro 72.7% (비전 GUI 이해 1위)
  • LMArena Elo 1501

ScreenSpot-Pro는 특히 의미가 큽니다. OpenAI의 Computer use가 “스크린샷 + 액션” 파이프라인 전체의 강점이라면, Gemini는 “스크린샷 이해” 자체에서 앞서 있습니다. 이후 에이전트 GUI 분기에서 결정적 우위로 돌아올 수 있는 지표예요.

Deep Think

Gemini 3.1 Pro에는 별도의 추론 집약 모드 Deep Think가 붙습니다. GPQA Diamond 93.8%. 이건 “더 오래 생각하게 하면 점수 올라감”을 공식 제품화한 형태인데, OpenAI o-series와 Anthropic extended thinking이 같은 방향이긴 해도 Google은 이걸 컨텍스트·멀티모달과 엮어서 판매합니다.

자체 칩 (TPU)

가장 구조적인 차이는 훈련·서빙 인프라입니다. OpenAI·Anthropic은 NVIDIA H100/H200/B200에 의존합니다. Google은 TPU를 자체 설계·운영합니다. 이게 가격 구조의 밑받침이에요 ― 2M 컨텍스트를 $2/$12에 팔면서 마진을 낼 수 있는 이유가 하드웨어 스택까지 수직 통합돼 있기 때문입니다.

엔지니어링적으로 읽으면

Google의 메시지는 “우리는 하드웨어·컨텍스트·멀티모달 세 축으로 판다”. 이 세 축 모두에서 다른 랩들이 따라오기 어렵습니다. TPU는 하루아침에 못 만들고, 2M은 인프라 없으면 못 팔고, 멀티모달 데이터셋도 수년 축적의 결과거든요.


5. xAI = pretraining-scale RL + 클로즈드

여기가 2026년에 가장 “흥미롭고 과소평가된” 랩입니다.

Grok은 “오픈”이 아니다

먼저 바로잡을 것. Grok-1은 2024-03에 Apache 2.0으로 가중치가 공개됐습니다. 그 이후 Grok 2, 3, 4, 4.1, 4.20은 전부 가중치 비공개 · API 전용입니다. “Grok은 오픈소스 아니냐”는 질문을 종종 받는데, 2024-03 한 번 이후로는 아닙니다. xAI는 완전히 클로즈드 랩입니다.

Colossus와 RL 예산 50%

2025-08-20 공개된 Grok 4 model card에는 꽤 센 숫자가 적혀 있습니다.

  • Colossus 클러스터: 약 30만 GPU (업계 최대급)
  • RL이 전체 훈련 예산의 약 50% — 일반적인 “pretraining 90% + RLHF 소량” 공식을 뒤집은 비율

이게 왜 의미가 있냐면, 기존 LLM 훈련 공식은 “거대 pretraining → 소규모 RLHF 정렬”이었습니다. xAI는 이 비율을 반으로 뒤집어서, RL 자체를 pretraining과 동급 스케일로 돌립니다. model card가 직접 밝힌 전략입니다.

4-agent 아키텍처가 모델 자체에 내장

Grok 4의 또 다른 특이점 — 4개의 에이전트가 병렬로 답안을 생성해 합의하는 구조가 모델 레벨에 내장돼 있습니다. 일반 LLM은 “추론 체인 하나”를 내놓지만, Grok 4는 내부에서 4개가 돌고 하나가 나옵니다. GPQA 88% 숫자 뒤에 이 구조가 있어요.

실시간 X 통합 · knowledge cutoff 2024-11

  • X(Twitter) 실시간 검색이 기본 내장 — 다른 랩이 별도 tool로 붙여야 하는 걸 xAI는 “우리는 X를 가지고 있다”로 해결.
  • knowledge cutoff는 2024-11 — 다른 플래그십보다 오래됐습니다. 근데 실시간 X가 있으니 큰 문제 아니라는 포지션.

가격: 가장 공격적

  • Grok 4.20: $2 / $6 — GPT-5.4 입력 동가·출력 반값
  • Grok 4.1 Fast: $0.20 / $0.50 — 거의 Haiku·nano 라인

“저가 + pretrain-RL + 실시간 X”로 미디어·소셜 워크로드에 최적화된 랩으로 읽어야 합니다. 범용 품질로 Opus·Gemini를 제치려는 전략이 아니에요.

엔지니어링적으로 읽으면

“우리는 RL을 pretraining 스케일로 돌릴 수 있는 유일한 랩이다. 그리고 X라는 데이터 독점 소스가 있다.” 가중치는 안 연다. Grok-1만 열어두고 나머지는 전부 API.


6. 벤치 수렴 → 새 분기점은 어디로 움직였나

FIG 2. 4사가 향하는 4가지 방향
Lab 향하는 방향 보여지는 지표
OpenAI 툴·에이전트 OS 레이어 OSWorld 75% · Computer use · Codex
Anthropic 안전·헌법·코딩 정렬 SWE-bench 87.6% · Constitution · Glasswing
Google 멀티모달 · 2M · 자체 칩 MMMU-Pro 81% · ScreenSpot 72.7% · TPU
xAI pretraining-scale RL · X 데이터 RL 예산 50% · 4-agent · Colossus 300K GPU

GPQA Diamond만 봅시다. 2026-04 기준:

  • Opus 4.7: 94.2%
  • GPT-5.4 Pro: 94.4%
  • Gemini 3.1 Pro (Deep Think): 93.8% (표준 모드 기준 다른 수치)
  • Grok 4.20: 88%

상위 3개는 소수점 차이입니다. 이 정도면 일반 실무에서 “어느 게 더 똑똑한가”라는 질문 자체가 의미가 없어지는 구간이에요.

그래서 차이가 실제로 나는 벤치가 뭐냐가 중요해집니다.

  • SWE-bench Verified: 긴 코딩 워크플로우. Opus 4.7 87.6%로 1위. 코딩 에이전트에서는 여전히 Anthropic 우위.
  • OSWorld: OS 레벨 computer use. GPT-5.4 75%로 1위. 화면 조작 에이전트는 OpenAI.
  • MMMU-Pro: 멀티모달 추론. Gemini 3.1 Pro 81%로 1위. 이미지·PDF·차트 이해는 Google.

즉 일반 지식 벤치는 포화됐고, 특정 분기점 — 코딩(Anthropic) · OS 조작(OpenAI) · 멀티모달(Google) · 미디어/소셜(xAI) — 으로 선택 기준이 이동했습니다.

“요즘 모델은 다 비슷해요”라고 말하는 분들이 놓치는 게 여기예요. 일반 지식 벤치는 비슷한 게 맞습니다. 그런데 실제 워크로드는 저 네 축 중 하나에 실립니다.


7. 가격 전쟁 ― 초저가 vs Pro 프리미엄

가격을 세 밴드로 자르면 구조가 보입니다.

초저가 밴드 (≤$1/1M)
Haiku 4.5: $1 / $5
– GPT-5.4 nano: $1 미만
– Grok 4.1 Fast: $0.20 / $0.50 ← 가장 공격적

이 밴드는 라우팅·분류·대량 배치 처리용입니다. “에이전트 내부에서 수백 번 호출되는 보조 모델” 포지션.

표준 밴드 ($2~$5 in, $6~$18 out)
– GPT-5.4: $2.50 / $15
– Claude Sonnet: $3 / $15
– Gemini 3.1 Pro: $2 / $12 (≤200K)
– Grok 4.20: $2 / $6

여기가 전쟁터입니다. Grok의 출력 $6이 특히 파격적이에요. 같은 GPT-5.4 대비 2.5배 저렴. 일반 실무 워크로드라면 비용으로 Grok이 끌어당깁니다.

Pro 프리미엄 ($25~$180)
– Claude Opus 4.7: $5 / $25
– GPT-5.4 Pro: $30 / $180 ← 가장 비쌈

Pro 밴드는 “모든 걸 쏟아붓는 한 번의 호출”에 쓰는 가격입니다. GPT-5.4 Pro 출력 $180은 다른 Pro 밴드 대비 7배. Codex·Computer use 같은 장시간 에이전트에서 품질 최적화를 위해 들어가는 영역이에요.

Gemini의 구간 과금은 혼자 다른 축: 컨텍스트 ≤200K에서 $2/$12, >200K에서 $4/$18. 200K 안에서 놀면 싸고, 넘기면 살짝 비싸집니다. OpenAI의 “272K 이후 2x/1.5x”보다 선형적이고 예측 가능해요.

실무 팁 하나 ― 한 에이전트 안에서 “대량 호출은 초저가 밴드 + 중요한 결정만 표준 밴드”로 섞는 게 2026년의 기본 구성입니다. 한 모델로 다 돌리는 시대는 끝났어요.


8. FAQ

Q1. “요즘 모델 다 비슷하다”는 말은 맞는 말인가요?

반은 맞고 반은 틀립니다. GPQA·MMLU 같은 일반 지식 벤치는 상위권이 94%대로 수렴해서 차이가 거의 없습니다. 그런데 SWE-bench·OSWorld·MMMU-Pro처럼 특정 워크로드 벤치는 여전히 5~10% 단위로 벌어져 있어요. “지식 질문”은 아무거나 써도 되고, “코딩·OS 조작·멀티모달”은 랩을 골라야 합니다.

Q2. Grok이 오픈소스 아닌가요?

Grok-1만 2024-03 Apache 2.0으로 공개됐습니다. 그 이후 나온 Grok 2, 3, 4, 4.1, 4.20은 전부 가중치 비공개, API 전용 클로즈드 모델입니다. xAI는 “초반에 한 번 공개했다”는 제스처를 남긴 후 완전히 클로즈드 전략으로 돌아섰어요.

Q3. Pro 밴드($25~$180)는 언제 쓰는 건가요?

장시간 에이전트 안에서 “이 호출이 전체 작업의 성공/실패를 가른다”는 지점에서 씁니다. 코드 리포 전체 리뷰, 긴 PDF 의사결정, 멀티 스텝 계획 수립 같은 곳. 대부분의 일반 작업은 표준 밴드 + 초저가 밴드 믹스로 충분합니다. Pro 밴드를 기본 모델로 두면 비용이 빠르게 터집니다.

Q4. 네 랩 중 하나만 골라 쓴다면?

워크로드에 따라 갈립니다. 코딩 중심이면 Anthropic (SWE-bench), 브라우저·OS 자동화면 OpenAI (OSWorld), 2M 컨텍스트·이미지·PDF·자체 칩 기반 가격이 필요하면 Google (Gemini), X 실시간 데이터·초저가 대량 호출이면 xAI (Grok 4.1 Fast). “하나만”이 아니라 에이전트 안에서 세 개 이상 섞는 게 2026년 실무 기본입니다.


9. 다음 편 안내

P 시리즈 다음 편은 P5: 오픈소스 3강 — Llama·Qwen·DeepSeek입니다. 클로즈드 4사와 달리, 이쪽은 실제로 가중치를 공개합니다. 그러면 “가격”이 아니라 “서빙 비용·fine-tuning 자유도·온프레미스 운영”이 새로운 축이 돼요. 같은 기준(훈련 방법론·아키텍처·제품 전략)으로 비교합니다.


소스 리스트

  • OpenAI API Pricing: https://openai.com/api/pricing/
  • GPT-5.4 Model Docs: https://developers.openai.com/api/docs/models/gpt-5.4
  • Introducing GPT-5: https://openai.com/index/introducing-gpt-5/
  • Claude Pricing: https://claude.com/pricing
  • Claude Model Overview: https://platform.claude.com/docs/en/about-claude/models/overview
  • Anthropic System Cards: https://www.anthropic.com/system-cards
  • Gemini Pro: https://deepmind.google/models/gemini/pro/
  • Gemini 3.1 Pro Announcement: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
  • xAI API: https://x.ai/api
  • xAI Developer Docs: https://docs.x.ai/developers/models
  • Grok 4 Release Note: https://x.ai/news/grok-4
  • Grok 4 Model Card (PDF, 2025-08-20): https://data.x.ai/2025-08-20-grok-4-model-card.pdf
  • Artificial Analysis Leaderboard: https://artificialanalysis.ai/leaderboards/models

🗺 AI 공부 지도 위 현재 위치
  • ◀ 앞 편: P3. 컴퓨팅·GPU 경제학
  • 지금 편: P4. 클로즈드 LLM 4사 기술 전략 차이
  • ▶ 다음 편: P5. 오픈소스 3강 (Llama·Qwen·DeepSeek)

뉴스레터 CTA

이런 식으로 “벤치가 아니라 전략”을 비교하는 글을 매주 월요일 아침 메일로 보냅니다. 받아보고 싶으면 뉴스레터 회원가입(무료·30초)에서 신청하세요.

바이브코딩 태일러
바이브코딩 태일러
AI의 작동 원리와 비즈니스 적용을 일본어·한국어로 기록합니다. 매주 월요일 뉴스레터 발행 중.
뉴스레터 구독하기 →
JAKO