DeepSeek

テイラー百科事典

DeepSeek

DeepSeek은 중국 항저우 소재 AI 연구소가 만든 오픈 웨이트 LLM·추론 모델 시리즈입니다. V3는 671B MoE(활성 37B) 아키텍처, R1은 RL 기반 reasoning 모델로 각각 GPT-4·o1 수준의 벤치마크를 오픈 웨이트로 달성했습니다.

DeepSeek은 중국 항저우 소재 AI 연구소가 만든 오픈 웨이트 LLM·추론 모델 시리즈입니다. V3는 671B MoE(활성 37B) 아키텍처, R1은 RL 기반 reasoning 모델로 각각 GPT-4·o1 수준의 벤치마크를 오픈 웨이트로 달성했습니다.

특징은 학습 비용. V3는 H800 2,048장 × 2개월로 약 557만 달러에 학습됐다고 공개돼, 서구 빅랩의 예상 비용 대비 10분의 1 수준이라 업계가 발칵 뒤집힌 사례입니다.

→ 원본 소스: Hugging Face · DeepSeek-V3

最終更新: 2026-04-21 · shuntailor.net テイラー百科事典
JAKO