📚 전체 지도 보기
Llama·Qwen·DeepSeek ― 오픈소스 3강의 기술 전략
“오픈소스 LLM이 결국 어디로 가고 있나요?”
이 질문 받을 때마다 저는 먼저 이 얘기부터 합니다.
오픈은 한 곳이 아닙니다. 3개의 다른 방향입니다.
Meta Llama, Alibaba Qwen, DeepSeek — 2026년 4월 현재 오픈소스 LLM 주도권을 쥐고 있는 세 곳은 같은 “오픈”이라는 깃발을 들고 있지만, 아키텍처도 라이선스도 전략도 서로 다릅니다. 그냥 다른 정도가 아니라, 목적지 자체가 다릅니다.
- Meta는 생태계를 지킵니다.
- Alibaba는 사이즈 풀 라인업으로 표준을 잡으려 합니다.
- DeepSeek는 아키텍처로 앞서 갑니다.
이 글은 각 랩이 논문과 공식 블로그에서 밝힌 선택들을 엔지니어 시선으로 읽어냅니다. MoE냐 Dense냐, 어떤 컨텍스트 확장 방식을 썼는지, 왜 Huawei Ascend로 학습하기 시작했는지까지 — 보도자료 톤은 빼고 가겠습니다.
순서는 이렇습니다.
- 3사 한눈 비교표
- Meta Llama ― 생태계 왕좌와 Community License의 함정
- Alibaba Qwen ― 풀 라인업 + 코딩 1위
- DeepSeek ― 아키텍처 혁신의 진원지
- 승기 영역 4가지
- 미출시 모델(Behemoth·V4) 어떻게 봐야 하나
- FAQ
1. 3사 한눈 비교표
공식 발표·공식 블로그 기반 비교입니다.
| 항목 | Meta Llama | Alibaba Qwen | DeepSeek |
|---|---|---|---|
| 최신 공개 | Llama 4 Scout / Maverick (2025-04) | Qwen3.6-35B-A3B (2026-04-16) | DeepSeek-V3.2-Exp |
| 플래그십 | Llama 4 Behemoth (2T, 연기) | Qwen3.6-Max-Preview (proprietary) | DeepSeek V4 (1T, 임박 보도) |
| 라이선스 | Llama 4 Community (700M MAU 제한) | Apache 2.0 | MIT / Apache 2.0 계열 |
| 사이즈 | 17B active (109B / 400B total) | Dense 0.6B~32B, MoE 30B-A3B / 35B-A3B / 235B-A22B / 397B-A17B | 671B total / 37B active |
| 아키텍처 | MoE + 10M 컨텍스트 + 네이티브 멀티모달 | Dense+MoE 하이브리드, 262K~1M 컨텍스트 | MoE + DeepSeek Sparse Attention(DSA) + MTP |
| 강점 | 멀티모달 SOTA (Maverick > GPT-4o 주장) | SWE-bench Verified 73.4 (코딩) | 추론·도구 사용 통합, 훈련 비용 파괴 |
세 줄로 요약하면:
- Meta: 큰 걸 내놨지만 라이선스가 묶음.
- Alibaba: 가장 공격적. 사이즈도 라이선스도 풀어줌.
- DeepSeek: 가장 얇지만 가장 날카로움. 아키텍처로 승부.
이제 한 곳씩 들어갑니다.
2. Meta Llama ― 생태계 왕좌 + Community License 함정
Meta는 오랫동안 “오픈 LLM = Llama” 라는 이미지를 가져왔습니다. HuggingFace 다운로드 1위, 파생 모델 수 압도적 1위. 로컬 LLM 튜토리얼을 찾으면 거의 다 Llama 베이스입니다.
이 이미지는 여전히 유효합니다. 하지만 2026년 기준으로 보면, Meta는 지키는 쪽에 서 있습니다.
아키텍처 선택
Llama 4 Scout/Maverick(2025-04 공개)의 핵심 설계는 세 가지입니다.
- MoE 채택: 17B active, total은 Scout 109B / Maverick 400B.
- 10M 토큰 컨텍스트: 공개 시점 기준 가장 긴 공개 컨텍스트.
- 네이티브 멀티모달: 이미지와 텍스트가 같은 백본에서 학습됨. 12개 언어 기본 지원.
특히 컨텍스트 10M은 엔지니어링적으로 의미가 큽니다. 단순히 “토큰 많이 넣어준다”가 아니라, 긴 컨텍스트에서의 attention 비용을 어떻게 감당했느냐가 포인트인데, Meta는 여기서 iRoPE(interleaved rotary position embedding) 계열의 위치 인코딩과 attention 최적화를 조합한 것으로 공개돼 있습니다.
전략 해석
- 자사 Meta AI 어시스턴트(Instagram·WhatsApp·Facebook 내장) 수십억 유저 백엔드.
- 오픈 가중치를 유지함으로써 “Llama = 표준” 포지션을 연장.
- 그러나 진짜 프런티어 모델은 닫는 쪽으로 기울고 있음.
Community License라는 함정
여기가 중요합니다. Llama 4의 라이선스는 “오픈”이라 불리지만 정확히는 Llama 4 Community License입니다.
핵심 제한 두 줄:
- 월간 활성 사용자 700M 이상 기업은 Meta 별도 허가 필요.
- 파생 모델 이름에 “Llama” 접두사 유지 의무, Meta 상표 규정 준수.
실무에서 뭘 의미하느냐.
- 중소·중견 기업은 사실상 자유롭게 씀 (700M MAU를 넘을 리 없음).
- TikTok·ByteDance·Apple급이면 별도 협상 필요.
- 파인튜닝해서 만든 내 모델 이름을 “MyModel”로 못 짓고 “Llama-MyModel” 형태를 유지해야 함.
그래서 OSI 정의의 “오픈소스”가 아닙니다. Apache 2.0이나 MIT처럼 아무 조건 없는 오픈 라이선스를 기대하고 다가가면 뒤에서 발목이 걸립니다.
Behemoth 연기 — 보이지 않는 허리
Llama 4 Behemoth(2T 파라미터)는 2025년 발표 시점에 “학습 중”으로 예고됐지만, 성능 개선이 기대치에 미치지 못해 출시가 무기한 연기됐다는 보도가 2025년 후반부터 이어지고 있습니다.
이게 Meta에 왜 뼈아픈가.
- Scout/Maverick은 이미 작은 모델. Behemoth가 있어야 “프런티어 플레이어”로 불릴 수 있음.
- 연기가 길어질수록 GPT-5·Claude·Gemini 2.5 등 폐쇄형 프런티어와의 거리가 벌어짐.
- 오픈 쪽에서도 Qwen·DeepSeek가 치고 올라오면서, Meta가 “오픈 대장” 포지션을 자동으로 유지하기 어려워짐.
이 부분은 해석입니다. Meta 공식 입장은 “지속 개선 중”이며, 공식 출시 일정은 현재(2026-04) 공개되지 않았습니다.
3. Alibaba Qwen ― 2026년 가장 공격적인 랩
Qwen은 2026년에 들어오면서 톤이 완전히 바뀌었습니다. 조용히 내놓던 연구용 모델이 아니라, 라인업 전체를 무기로 들고 시장에 들어왔습니다.
사이즈 풀 라인업 전략
현재 Qwen 라인업은 대략 이렇게 분포돼 있습니다.
- Dense 모델: 0.6B / 1.7B / 4B / 8B / 14B / 32B
- MoE 모델: 30B-A3B / 35B-A3B / 235B-A22B / 397B-A17B
이 스펙트럼은 의도적입니다. 엣지 디바이스(0.6B)부터 데이터센터(397B-A17B)까지 하나의 브랜드·하나의 토크나이저·비슷한 API로 쓸 수 있게 맞춰놨습니다.
엔지니어 관점에서 이게 강력한 이유:
- 프로토타입은 작은 모델로, 배포는 큰 모델로 — 라이브러리 바꿀 필요 없음.
- 파인튜닝 레시피를 크기 간에 옮기기 쉬움.
- 로컬 실행(Ollama)부터 클라우드(Alibaba Cloud)까지 연속적.
Qwen3.6-35B-A3B ― 로컬 코딩의 왕
2026-04-16에 공개된 Qwen3.6-35B-A3B가 이번 라인업의 하이라이트입니다.
- 총 파라미터 35B, active 3B (MoE).
- Apache 2.0.
- SWE-bench Verified 73.4 — 공개 시점 기준 오픈소스 코딩 1위.
이 숫자가 왜 충격인가.
SWE-bench Verified는 실제 GitHub 이슈를 패치로 해결하는 벤치마크입니다. “코드 한 줄 짜기”가 아니라 “리포 전체를 읽고, 버그를 찾고, 패치를 내고, 테스트를 통과하는” 작업 — 에이전트 능력의 종합 측정입니다.
여기서 73.4%는 frontier proprietary 모델과 접전에 가까운 숫자입니다. 그리고 그걸 active 3B 모델이 했습니다. M-series 맥에서도, 24GB VRAM GPU 한 장에서도 돌 수 있는 사이즈입니다.
즉 “로컬에서 굴러가는 코딩 에이전트” 영역에서 Qwen3.6-35B-A3B는 현재 1강입니다.
전략 해석
- Apache 2.0 = 어떤 기업도 마음껏 상용화 가능. 중소기업 입장에서 가장 덜 부담스러움.
- 오픈소스 표준 자리를 Meta에서 빼앗으려는 의도로 읽힘.
- 아시아권(중·일·한) 언어 성능에서 우위 — 다국어 토크나이저가 애초에 아시아 비중이 큼.
- Alibaba Cloud 번들링으로 기업 영업까지 연결.
Qwen3.6-Max-Preview는 proprietary라는 점은 짚어둘 필요가 있습니다. 최상위 플래그십은 닫아두면서, 바로 아래 라인업(특히 35B-A3B)까지는 Apache 2.0으로 풀어주는 “열고, 한 층 닫는” 구조입니다.
4. DeepSeek ― 아키텍처 혁신의 진원지
세 곳 중 DeepSeek가 가장 얇습니다. 모델 라인업도 제품군도 Meta·Alibaba에 비해 훨씬 단순합니다.
그런데 왜 가장 주목받느냐.
아키텍처와 훈련 방법론을 가장 공격적으로 공개하고 있기 때문입니다. 논문으로, 코드로, 수치로.
아키텍처 핵심 3가지
(1) Mixture-of-Experts (MoE) + 극단적 sparsity
DeepSeek-V3의 구조는 671B total / 37B active. 즉 파라미터의 약 5.5%만 한 번의 forward에서 활성화됩니다. 추론 비용을 17배 이상 압축하는 설계입니다.
(2) Multi-head Latent Attention (MLA) → DeepSeek Sparse Attention (DSA)
MLA는 DeepSeek-V2에서 나온 기법으로, attention의 KV 캐시를 latent space에 압축해 긴 컨텍스트에서 메모리 폭발을 완화합니다. V3.2-Exp에 오면서 이게 DeepSeek Sparse Attention(DSA)으로 진화합니다 — 긴 컨텍스트 구간에서 attention을 sparsity 패턴으로 더 줄이는 방향입니다.
긴 컨텍스트의 비용을 아키텍처 레벨에서 깎아내는 것이 DeepSeek 스타일입니다. “GPU 더 넣자”가 아니라 “계산 구조를 바꾸자”입니다.
(3) Multi-Token Prediction (MTP)
한 번의 forward에서 다음 1개 토큰만 예측하지 않고 여러 토큰을 함께 예측하게 훈련합니다. 학습 신호를 더 조밀하게 넣는 효과 + 추론 시 speculative decoding에 유리합니다.
훈련 방법론 — V3의 $6M 내러티브
DeepSeek-V3는 2025-01 공개 시점에 “약 $6M 규모의 훈련 비용”이라는 수치를 공식 리포트에 적시해 시장에 충격을 줬습니다.
이 숫자는 딱 하드웨어 시간 추정치라는 점을 짚어둘 필요가 있습니다. 데이터 수집·인건비·실패한 실험 비용은 빠져 있습니다. 하지만 “순수 GPU 시간 기준으로 이 정도에 프런티어급 모델이 학습 가능하다”를 오픈으로 증명한 건 DeepSeek가 처음입니다.
그리고 R1(2025-01) — 추론 RL 훈련의 오픈 공개. OpenAI o1이 열어놓은 방향을 공개된 체크포인트로 복제 가능하게 만든 것도 DeepSeek입니다.
V4와 Huawei Ascend 보도
2026-04 현재, DeepSeek V4는 미공개입니다. 다만 복수의 보도에 따르면:
- 1T 파라미터급 MoE.
- 네이티브 멀티모달.
- Apache 2.0 계열 라이선스 예정.
- Huawei Ascend 950PR 기반으로 학습 중.
마지막 항목이 특히 상징적입니다. V3까지는 Nvidia H800/H100 기반이었지만, V4는 중국산 AI 가속기에서 학습됐다는 이야기입니다. 이게 사실이라면 “탈Nvidia + 중국 AI 자립”의 첫 상징 사례가 됩니다.
V4 관련 스펙·학습 환경은 2026-04 현재 DeepSeek 공식이 확정 발표한 사항이 아닙니다. “임박 보도” 수준에서만 다루고 있음을 명시합니다.
전략 해석
- 가격 파괴: API 가격 ~$0.30/MTok 근처로 OpenAI·Anthropic 대비 10~30배 저렴.
- 중국 공공·금융 부문 도입.
- 연구 재현성으로 글로벌 오픈소스 커뮤니티의 신뢰 확보.
5. 승기 영역 4가지 — 어느 쪽이 지금 이기나
같은 “오픈소스 LLM”이라도 용도에 따라 누가 가장 강한지가 다릅니다. 네 가지로 잘라보면 이렇습니다.
FIG 2. 4가지 승기 영역
| 영역 | 승자 | 근거 |
|---|---|---|
| 로컬/엣지 코딩 | Qwen3.6-35B-A3B | SWE-bench Verified 73.4, active 3B |
| 긴 컨텍스트 멀티모달 | Llama 4 Scout | 10M 토큰 컨텍스트, 네이티브 비전 |
| 추론·에이전트·비용 | DeepSeek V3.2 / V4 | DSA + MTP + ~$0.30/MTok 가격대 |
| 연구 재현성 / 논문 공개 | DeepSeek | 아키텍처·훈련 코드·수치 가장 많이 공개 |
로컬/엣지 코딩 — Qwen3.6-35B-A3B
맥북 한 대에서 굴리는 Claude Code 대체재를 찾는다면 지금은 Qwen3.6-35B-A3B가 답입니다. active 3B라는 점 때문에 M3 Max 수준이면 실시간으로 돌고, SWE-bench Verified 73.4는 로컬 코딩 에이전트 영역에서 독보적입니다.
긴 컨텍스트 멀티모달 — Llama 4 Scout
10M 토큰 + 네이티브 비전. 리포 전체 + 스크린샷 수십 장을 한 번에 삼키는 작업에서 경쟁자가 거의 없습니다. 다만 Community License의 700M MAU 제한은 서비스 설계 초기에 꼭 검토해야 합니다.
추론·에이전트·비용 — DeepSeek V3.2 / V4
추론 단가와 도구 사용 통합, 두 축에서 DeepSeek가 앞서 있습니다. 에이전트를 24시간 돌리는 워크로드에서는 토큰당 $0.30 수준이 워낙 커서 — 다른 선택지가 사실상 어렵습니다.
연구 재현성 — DeepSeek
논문 퀄리티·공개 수준·코드 공개 범위에서 DeepSeek가 압도적입니다. 아키텍처를 직접 공부하고 재현 실험을 하려면 DeepSeek 테크 리포트부터 읽는 게 제일 빠릅니다.
6. 3사 매트릭스 ― 한 번 더 정리
FIG 1. 3사 사이즈·라이선스·강점 매트릭스
• Community License
• 700M MAU 제한
• 10M 컨텍스트
• 네이티브 멀티모달
승기: 긴 컨텍스트 비전
• Apache 2.0
• 제약 없음
• 262K~1M 컨텍스트
• Dense+MoE 하이브리드
승기: 로컬 코딩 1위
• MIT / Apache 2.0 계열
• 제약 없음
• DSA + MLA + MTP
• ~$0.30/MTok
승기: 추론·비용·재현성
7. 미출시 모델(Behemoth·V4) 어떻게 봐야 하나
2026-04 현재 시장엔 “임박”과 “연기”가 섞여 있습니다.
Llama 4 Behemoth (2T, 연기)
- 공식 발표 시점: 2025-04 “학습 중” 예고.
- 현재 상태: 성능 개선 기대치 미달 보도, 공식 출시 일정 미정.
- 해석: 계획대로 가지 않고 있다는 시그널. Meta가 플래그십 공백을 언제·어떤 사이즈로 메울지가 2026년의 오픈 지형을 좌우합니다.
DeepSeek V4 (1T, 임박 보도)
- 공식 발표 시점: 미공개 (2026-04 기준).
- 보도 수준: 1T MoE / 네이티브 멀티모달 / Huawei Ascend 950PR 학습.
- 해석: 사실이라면 아키텍처 + 멀티모달 + 탈Nvidia의 3중 돌파. 다만 아직 공식 확정이 아니므로, “보도 기반 추정“이라는 딱지를 붙여 읽어야 합니다.
미출시 모델에 대한 제 태도:
- 제품 선택 기준으로 쓰지 않는다. 현재 출시된 것만 기준으로 본다.
- 다만 방향성은 읽는다 — Behemoth 연기는 Meta의 허리가 약해진다는 것, V4 임박은 중국 쪽 자립 속도가 빨라진다는 것.
- 공식 릴리스 노트가 나오기 전까지는 “임박 보도”라는 라벨을 빼지 않는다.
8. FAQ
Q1. 오픈소스 LLM 비교에서 결국 하나만 골라야 한다면?
용도에 따라 다릅니다. 로컬에서 코딩 에이전트를 돌리고 싶다 → Qwen3.6-35B-A3B. 긴 문서·이미지까지 한 번에 처리하고 싶다 → Llama 4 Scout. API 비용을 극단적으로 누르고 싶다 → DeepSeek V3.2. 하나 추천을 강제로 해야 한다면, 2026-04 기준 가장 “덜 위험한 기본값”은 Apache 2.0 + 풀 라인업을 제공하는 Qwen 계열입니다.
Q2. MoE는 항상 Dense보다 좋은가요?
아닙니다. MoE는 “active 파라미터”만 계산하므로 추론 비용이 싸지지만, 총 파라미터를 저장할 VRAM이 필요합니다. 예를 들어 Qwen3.6-35B-A3B는 active가 3B라도 총 35B를 메모리에 올려야 합니다. 엣지 디바이스(메모리 16GB 이하)에서는 오히려 작은 Dense 모델이 유리할 수 있습니다.
Q3. Llama 4 Community License는 오픈소스인가요?
엄밀히는 아닙니다. OSI(Open Source Initiative) 정의로는 조건 없는 자유 재배포·수정·상용 이용이 보장돼야 오픈소스인데, Llama Community License는 700M MAU 제한과 상표 규정을 요구하므로 이 정의에 부합하지 않습니다. 업계에선 “open weights”라는 표현을 쓰는 게 더 정확합니다.
Q4. DeepSeek의 $6M 훈련 비용은 진짜인가요?
공식 리포트에 기재된 숫자입니다. 다만 이건 GPU 시간 기준 하드웨어 비용 추정치이고, 데이터 수집·인건비·실패한 실험 비용은 제외돼 있습니다. 그래서 “총 개발비”와 혼동하면 오해가 생깁니다. “비슷한 스케일의 모델을 GPU 시간만 놓고 비교하면 DeepSeek가 현저히 싸게 학습했다”는 비교용 수치로 읽는 게 정확합니다.
9. 다음 편 안내
이 글은 AI 공부 지도 시리즈의 P5입니다.
다음 편(P6)에서는 Ollama로 이 모델들을 로컬에서 실제로 실행하는 방법을 다룹니다. Qwen3.6-35B-A3B를 Mac에 띄우고, DeepSeek-V3 양자화 버전을 실행하고, Llama 4 Scout의 어느 버전을 로컬에서 돌릴 수 있는지까지 — 손가락으로 따라가는 가이드입니다.
10. 소스
- Meta AI, “Llama 4: Multimodal Intelligence”: https://ai.meta.com/blog/llama-4-multimodal-intelligence/
- Llama Models: https://www.llama.com/models/llama-4/
- HuggingFace Meta Llama: https://huggingface.co/meta-llama
- Qwen Blog: https://qwenlm.github.io/blog/qwen3/
- Qwen3.6 GitHub: https://github.com/QwenLM/Qwen3.6
- HuggingFace Qwen3.6-35B-A3B: https://huggingface.co/Qwen/Qwen3.6-35B-A3B
- Alibaba Cloud Blog (Qwen3.6 Coding): https://www.alibabacloud.com/blog/qwen3-6-35b-a3b-agentic-coding-power-now-open-to-all_603043
- DeepSeek API Docs News: https://api-docs.deepseek.com/news/news251201
- HuggingFace DeepSeek-V3.2-Exp: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
- DeepSeek-V3 GitHub: https://github.com/deepseek-ai/DeepSeek-V3
- DeepSeek R1 News: https://api-docs.deepseek.com/news/news250120
뉴스레터 CTA
이렇게 한 개념씩 끝까지 풀어서 설명하는 글을 매주 월요일 아침 메일로 보냅니다. 받아보고 싶으면 뉴스레터 회원가입(무료·30초)에서 신청하세요.




