テイラー百科事典
DeepSeek
DeepSeekは中国・杭州のAI研究所が公開するオープンウェイトLLM・推論モデルシリーズです。V3は671B MoE(活性37B)アーキテクチャ、R1はRLベースのreasoningモデルで、それぞれGPT-4・o1級のベンチマークをオープンウェイトで達成しました。
DeepSeekは中国・杭州のAI研究所が公開するオープンウェイトLLM・推論モデルシリーズです。V3は671B MoE(活性37B)アーキテクチャ、R1はRLベースのreasoningモデルで、それぞれGPT-4・o1級のベンチマークをオープンウェイトで達成しました。
特徴は学習コスト。V3はH800を2,048枚×2ヶ月、総額およそ557万ドルで学習したと公開され、欧米ビッグラボの想定コストに比べ約10分の1という数字が業界を揺らしました。
→ 原典: Hugging Face · DeepSeek-V3