📍 AI 공부 지도 — 27/29편

이 글은 AI의 기초부터 Meta-Harness·응용 비교까지 순서대로 읽는 29편 시리즈의 27편입니다.
📚 전체 지도 보기

← 이전 편: P3. 오픈 vs 클라우드 LLM · 다음 편: P5. 오픈 3강 Llama·Qwen·DeepSeek →

📚 이 글을 읽기 전에: P 시리즈는 22편 시리즈와 P1(Claude family)을 읽으신 독자 가정. 특히 F1 LLM·F2 Transformer·B1 Agent 핵심.

Table of Contents

GPT·Claude·Gemini·Grok ― 클로즈드 4사의 기술 전략 차이

“요즘 모델들 다 비슷하지 않아요?”

최근 이 질문을 꽤 자주 받습니다.

GPQA Diamond 벤치 94%대, MMLU 90%대, 코딩도 다 SWE-bench 80% 위쪽. 숫자만 쭉 늘어놓으면 납득이 갑니다. 상위권의 차이는 거의 소멸했습니다.

그런데 같은 숫자 아래에서, 회사 네 곳은 완전히 다른 곳을 향해 달리고 있습니다.

OpenAI는 툴·에이전트 인프라 회사가 되려 하고
Anthropic은 안전·헌법 회사로 남으려 하고
Google은 멀티모달·자체 칩·2M 컨텍스트 회사
xAI는 pretraining-scale RL 회사

이 글은 “어느 회사가 제일 똑똑한가” 같은 질문이 아닙니다. 엔지니어링 수준에서 무엇이 다른가를 네 덩어리로 잘라서 보는 글입니다.

클로즈드(closed) 라는 말을 쓰는 이유도 뒤에서 짚습니다. xAI의 Grok은 2024-03 Grok-1만 Apache 2.0으로 가중치가 공개됐고, 이후 Grok 2·3·4·4.1·4.20은 전부 API 전용 클로즈드입니다. “오픈 같아 보이지만 오픈이 아닌” 포지션이에요.

순서는 이렇습니다.

4사 한눈에 비교
OpenAI = 툴·에이전트 인프라
Anthropic = 안전·헌법
Google = 멀티모달·인프라·자체 칩
xAI = pretraining-scale RL + 클로즈드
벤치 수렴 → 새 분기점은 어디로 움직였나
가격 전쟁 ― 초저가 vs Pro 프리미엄
FAQ

1. 4사 한눈에 비교 (2026-04 기준)

FIG 1. 4사 가격·컨텍스트·플래그십

Lab	Flagship	$/1M in·out	Context	핵심 지표
OpenAI	GPT-5.4	$2.50 / $15 (Pro $30 / $180)	1.05M (>272K 2x/1.5x)	OSWorld 75% · Codex
Anthropic	Opus 4.7	$5 / $25 (Sonnet $3/$15)	1M	SWE-bench Verified 87.6%
Google	Gemini 3.1 Pro	$2 / $12 (>200K $4/$18)	2M	MMMU-Pro 81% · Deep Think GPQA 93.8%
xAI	Grok 4.20	$2 / $6 (4.1 Fast $0.20/$0.50)	2M	4-agent · GPQA 88%

출처: openai.com/api/pricing · claude.com/pricing · x.ai/api · deepmind.google/models/gemini/pro (2026-04 확인)

이 표만 봐도 가격 밴드와 컨텍스트가 제각각이라는 게 보입니다. 여기서부터가 본론입니다.

2. OpenAI = 툴·에이전트 인프라 회사

GPT-5.4를 “모델”이라고만 보면 전략을 놓칩니다. OpenAI가 지난 1년 동안 밀어 넣은 건 모델이 아니라 모델이 돌아가는 OS 레이어입니다.

가격 구조에 전략이 박혀 있다

GPT-5.4는 입력 $2.50 / 출력 $15. 하지만 272K 토큰을 넘기는 순간 입력이 2배, 출력이 1.5배로 뛰는 구간 과금이 들어갑니다. 1.05M 컨텍스트를 “제공은 한다”고 하면서 실제로는 비용으로 스로틀링을 건 구조예요.

반대로 mini는 $0.75 / $4.50, nano는 $1 미만, Pro는 $30 / $180. 밴드가 50배 넘게 벌어진 라인업입니다. 이건 “한 모델이 모든 걸 한다”가 아니라 “툴이 알아서 모델을 고른다”는 설계예요.

Computer use·Codex·tool search

엔지니어 눈으로 봐야 차이가 보이는 부분은 여기입니다.

Computer use (OSWorld 75%): 브라우저·파일 시스템·OS UI를 모델이 직접 조작. 이건 모델만 좋아서 되는 게 아닙니다. 스크린샷 파이프라인, 좌표 정규화, 액션 안전 검증까지 인프라 묶음이에요.
Codex 통합: 에이전트가 장시간 리포 위에서 작업할 때 필요한 harness를 OpenAI 자체가 제공.
Tool search / conversation compaction: 툴이 많아지면 선택 비용이 폭증하는 문제를 모델 바깥 검색 레이어로 해결.

Anthropic이 “모델의 품질”로 승부하고 있다면, OpenAI는 “모델을 둘러싼 OS”로 승부하는 중입니다. 같은 GPT-5.4를 쓰더라도 System Card Update가 5.1 → 5.2 → 5.3 증분 공개 형식으로 굴러간다는 점도 이 전략과 맞물립니다. 모델 릴리스보다 인프라 업데이트가 더 잦아요.

엔지니어링적으로 읽으면

Training methodology는 비공개. 공식 논문도 없고 weight도 없고 파라미터 수도 “공개 안 함” 입니다. 대신 OpenAI가 공개하는 건 System Card·Pricing·Tool 쪽 문서들. 바깥에서 보이는 전략이 “우리는 모델 사실관계를 열지 않는다. 대신 플랫폼을 연다” 로 정렬돼 있습니다.

3. Anthropic = 안전·헌법 회사

Anthropic은 반대로 방법론을 가장 열어둔 랩입니다. 물론 가중치는 안 열지만, 훈련·정렬의 프레임워크는 문서로 풀어둡니다.

Constitutional AI / RLAIF

Claude 계열이 “Constitutional AI”라는 방법론 위에 서 있다는 건 2022년부터 공개된 사실이고, 2026-01에는 Constitution 개정판이 업데이트로 공개됐습니다. 여기서 핵심은 RLAIF(Reinforcement Learning from AI Feedback) — 사람이 모든 페어를 평가하지 않고, 헌법에 맞춰 모델이 self-critique하며 정렬합니다.

비교 지점:
– OpenAI의 정렬 방법론은 구체 파이프라인이 비공개.
– xAI는 model card에서 RL이 전체 훈련 예산의 약 50%라고 숫자까지 까는데, “무엇을 위해 최적화하는지”의 상위 프레임이 Anthropic만큼 구조화돼 있진 않습니다.

SWE-bench Verified 87.6%

Opus 4.7이 가장 잘 설명되는 지점이 코딩입니다. SWE-bench Verified 87.6%는 현시점 공개 상위권. 왜 Anthropic이 코딩에 강하냐 — 공식 이유는 안 나옵니다만, 헌법 기반 정렬이 “긴 작업을 중간에 포기하지 않는 행동 규범”과 잘 맞는다는 업계 분석이 있습니다. (공식 미공개·업계 해석)

Project Glasswing

2026년에 들어 Anthropic이 강조하는 새 레이어가 Project Glasswing — 모델 내부 활성화를 관측·제어하는 안전장치입니다. 구체 구현은 비공개지만, System Card에서 언급되는 방향성이 확실합니다.

엔지니어링적으로 읽으면

Anthropic은 “우리는 왜·어떻게 정렬하는가를 글로 공개한다. 대신 모델 내부 수치는 공개하지 않는다”. 가격 정책도 단순합니다 — Opus $5/$25, Sonnet $3/$15, Haiku $1/$5. 티어가 3단이고 컨텍스트 과금 트릭이 없습니다. 가격 구조 자체가 “모델 티어로만 판다”는 메시지예요.

4. Google = 멀티모달·인프라·자체 칩 회사

Gemini 3.1 Pro를 한 단어로 요약하면 “인프라로 이긴다”입니다.

2M context와 티어 과금

컨텍스트 2M은 현 시점 공개 최대치입니다. 과금 구조도 투명해요 ― ≤200K $2/$12, >200K $4/$18. OpenAI처럼 “1M 허용하지만 272K부터 요금 껑충”이 아니라 단순 두 구간. 엔지니어 입장에서 예산 계산이 깔끔합니다.

멀티모달 1위

MMMU-Pro 81% (멀티모달 추론)
ScreenSpot-Pro 72.7% (비전 GUI 이해 1위)
LMArena Elo 1501

ScreenSpot-Pro는 특히 의미가 큽니다. OpenAI의 Computer use가 “스크린샷 + 액션” 파이프라인 전체의 강점이라면, Gemini는 “스크린샷 이해” 자체에서 앞서 있습니다. 이후 에이전트 GUI 분기에서 결정적 우위로 돌아올 수 있는 지표예요.

Deep Think

Gemini 3.1 Pro에는 별도의 추론 집약 모드 Deep Think가 붙습니다. GPQA Diamond 93.8%. 이건 “더 오래 생각하게 하면 점수 올라감”을 공식 제품화한 형태인데, OpenAI o-series와 Anthropic extended thinking이 같은 방향이긴 해도 Google은 이걸 컨텍스트·멀티모달과 엮어서 판매합니다.

자체 칩 (TPU)

가장 구조적인 차이는 훈련·서빙 인프라입니다. OpenAI·Anthropic은 NVIDIA H100/H200/B200에 의존합니다. Google은 TPU를 자체 설계·운영합니다. 이게 가격 구조의 밑받침이에요 ― 2M 컨텍스트를 $2/$12에 팔면서 마진을 낼 수 있는 이유가 하드웨어 스택까지 수직 통합돼 있기 때문입니다.

엔지니어링적으로 읽으면

Google의 메시지는 “우리는 하드웨어·컨텍스트·멀티모달 세 축으로 판다”. 이 세 축 모두에서 다른 랩들이 따라오기 어렵습니다. TPU는 하루아침에 못 만들고, 2M은 인프라 없으면 못 팔고, 멀티모달 데이터셋도 수년 축적의 결과거든요.

5. xAI = pretraining-scale RL + 클로즈드

여기가 2026년에 가장 “흥미롭고 과소평가된” 랩입니다.

Grok은 “오픈”이 아니다

먼저 바로잡을 것. Grok-1은 2024-03에 Apache 2.0으로 가중치가 공개됐습니다. 그 이후 Grok 2, 3, 4, 4.1, 4.20은 전부 가중치 비공개 · API 전용입니다. “Grok은 오픈소스 아니냐”는 질문을 종종 받는데, 2024-03 한 번 이후로는 아닙니다. xAI는 완전히 클로즈드 랩입니다.

Colossus와 RL 예산 50%

2025-08-20 공개된 Grok 4 model card에는 꽤 센 숫자가 적혀 있습니다.

Colossus 클러스터: 약 30만 GPU (업계 최대급)
RL이 전체 훈련 예산의 약 50% — 일반적인 “pretraining 90% + RLHF 소량” 공식을 뒤집은 비율

이게 왜 의미가 있냐면, 기존 LLM 훈련 공식은 “거대 pretraining → 소규모 RLHF 정렬”이었습니다. xAI는 이 비율을 반으로 뒤집어서, RL 자체를 pretraining과 동급 스케일로 돌립니다. model card가 직접 밝힌 전략입니다.

4-agent 아키텍처가 모델 자체에 내장

Grok 4의 또 다른 특이점 — 4개의 에이전트가 병렬로 답안을 생성해 합의하는 구조가 모델 레벨에 내장돼 있습니다. 일반 LLM은 “추론 체인 하나”를 내놓지만, Grok 4는 내부에서 4개가 돌고 하나가 나옵니다. GPQA 88% 숫자 뒤에 이 구조가 있어요.

실시간 X 통합 · knowledge cutoff 2024-11

X(Twitter) 실시간 검색이 기본 내장 — 다른 랩이 별도 tool로 붙여야 하는 걸 xAI는 “우리는 X를 가지고 있다”로 해결.
knowledge cutoff는 2024-11 — 다른 플래그십보다 오래됐습니다. 근데 실시간 X가 있으니 큰 문제 아니라는 포지션.

가격: 가장 공격적

Grok 4.20: $2 / $6 — GPT-5.4 입력 동가·출력 반값
Grok 4.1 Fast: $0.20 / $0.50 — 거의 Haiku·nano 라인

“저가 + pretrain-RL + 실시간 X”로 미디어·소셜 워크로드에 최적화된 랩으로 읽어야 합니다. 범용 품질로 Opus·Gemini를 제치려는 전략이 아니에요.

엔지니어링적으로 읽으면

“우리는 RL을 pretraining 스케일로 돌릴 수 있는 유일한 랩이다. 그리고 X라는 데이터 독점 소스가 있다.” 가중치는 안 연다. Grok-1만 열어두고 나머지는 전부 API.

6. 벤치 수렴 → 새 분기점은 어디로 움직였나

FIG 2. 4사가 향하는 4가지 방향

Lab