テイラー百科事典
DeepSeek
DeepSeek은 중국 항저우 소재 AI 연구소가 만든 오픈 웨이트 LLM·추론 모델 시리즈입니다. V3는 671B MoE(활성 37B) 아키텍처, R1은 RL 기반 reasoning 모델로 각각 GPT-4·o1 수준의 벤치마크를 오픈 웨이트로 달성했습니다.
DeepSeek은 중국 항저우 소재 AI 연구소가 만든 오픈 웨이트 LLM·추론 모델 시리즈입니다. V3는 671B MoE(활성 37B) 아키텍처, R1은 RL 기반 reasoning 모델로 각각 GPT-4·o1 수준의 벤치마크를 오픈 웨이트로 달성했습니다.
특징은 학습 비용. V3는 H800 2,048장 × 2개월로 약 557만 달러에 학습됐다고 공개돼, 서구 빅랩의 예상 비용 대비 10분의 1 수준이라 업계가 발칵 뒤집힌 사례입니다.
→ 원본 소스: Hugging Face · DeepSeek-V3