テイラー百科事典
MoE (Mixture of Experts)
MoE(Mixture of Experts)는 하나의 거대 모델 안에 여러 개의 전문가(expert) 서브네트워크를 두고, 입력 토큰마다 router가 일부만 골라서 활성화하는 아키텍처입니다.
MoE(Mixture of Experts)는 하나의 거대 모델 안에 여러 개의 전문가(expert) 서브네트워크를 두고, 입력 토큰마다 router가 일부만 골라서 활성화하는 아키텍처입니다.
예를 들어 Mixtral 8x7B는 총 파라미터 47B지만 토큰당 실제로 쓰는 건 13B뿐. 총 파라미터 대비 추론 비용을 3~4배 싸게 유지하면서 지식 용량은 그대로 가져가는 트릭입니다. DeepSeek-V3, Llama 4, Qwen3 235B가 모두 MoE로 갔고, 2025년 프론티어 모델의 기본 설계가 됐습니다.
→ 원본 소스: arXiv · Mixtral of Experts