AllenAI 在 24 年 9 月提出了 olmoe, 一个全开源的基于 MoE 架构的大语言模型,参数量为 7B-A1B,作者详细介绍了模型的设计,数据以及训练策略. 论文获得了ICLR2025 oral
Google 在 2020 年提出了 Gshard, 一个用于 MoE model 的 API 模块,作者的目的是探究如何高效训练基于 MoE 的 transformer 模型
google 在 2022 年 4 月提出了 ST-MoE-269B-A32B, 用于解决 MoE 模型的训练不稳定性以及表现不佳的问题
Google 在 2022 年 6 月提出了 Switch Transformer, 一个基于 MoE 架构的 Transformer 模型。作者通过改进 MoE 算法,大幅度提高了计算和通信效率,结果发现模型比 dense model 有更高的训练效率。
DeepMind 在 22 年 3 月探究了如何在给定算力下,决定最优的 model size 和 data size. 作者发现对于算力最优的场景,model size 和 dataset size 应该以相同的规模增长。基于这个 scaling law 作者提出了 Chinchilla, 一个 70B 的大语言模型,结果显示 Chinchilla 超过了其他更大 size 模型的表现。