Mistral 在 24 年 1 月提出了 Mistral 8x7B, 一个 MoE 大语言模型,模型包括 8 个专家,激活 2 个专家,总参数量为 47B, 激活参数量为 13B.
Mistral 在 23 年 10 月提出了 Mistral 7B, 其模型表现超过了 LLaMA2-13B.
AllenAI 在 24 年 9 月提出了 olmoe, 一个全开源的基于 MoE 架构的大语言模型,参数量为 7B-A1B,作者详细介绍了模型的设计,数据以及训练策略. 论文获得了ICLR2025 oral
Google 在 2020 年提出了 Gshard, 一个用于 MoE model 的 API 模块,作者的目的是探究如何高效训练基于 MoE 的 transformer 模型
AllenAI 在 24 年 9 月提出了 olmoe, 一个全开源的基于 MoE 架构的大语言模型,参数量为 7B-A1B,作者详细介绍了模型的设计,数据以及训练策略. 论文获得了ICLR2025 oral