MoE (Mixture of Experts)

テイラー百科事典

MoE (Mixture of Experts)

MoE(Mixture of Experts)は、1つの巨大モデルの中に複数のエキスパート(専門家)サブネットワークを置き、入力トークンごとにrouterが一部だけを選んで活性化するアーキテクチャです。

MoE(Mixture of Experts)は、1つの巨大モデルの中に複数のエキスパート(専門家)サブネットワークを置き、入力トークンごとにrouterが一部だけを選んで活性化するアーキテクチャです。

例えばMixtral 8x7Bは総パラメータ47Bですが、トークンあたり実際に使うのは13Bだけ。総パラメータに対して推論コストを3~4倍安く抑えつつ、知識容量はそのまま確保する仕掛けです。DeepSeek-V3、Llama 4、Qwen3 235BもすべてMoEに移行し、2025年のフロンティアモデルの基本設計になりました。

→ 原典: arXiv · Mixtral of Experts

最終更新: 2026-04-21 · shuntailor.net テイラー百科事典
JAKO