Google 在 2022 年 6 月提出了 Switch Transformer, 一个基于 MoE 架构的 Transformer 模型。作者通过改进 MoE 算法,大幅度提高了计算和通信效率,结果发现模型比 dense model 有更高的训练效率。
DeepMind 在 22 年 3 月探究了如何在给定算力下,决定最优的 model size 和 data size. 作者发现对于算力最优的场景,model size 和 dataset size 应该以相同的规模增长。基于这个 scaling law 作者提出了 Chinchilla, 一个 70B 的大语言模型,结果显示 Chinchilla 超过了其他更大 size 模型的表现。
OpenAI 在 20 年 1 月份探究了 model size, dataset size 以及 compute budget 与 transformer 损失之间的关系。通过构建 scaling law, 我们可以在固定的 compute budget 下,决定最优的配置