Mixstral 8x7B

Mistral 在 24 年 1 月提出了 Mistral 8x7B, 一个 MoE 大语言模型,模型包括 8 个专家,激活 2 个专家,总参数量为 47B, 激活参数量为 13B.

Introduction

作者在本文中提出了 Mixtral 8x7B, 一个 MoE 模型,模型上下文为 32K. 作者还对模型进行 finetune 得到了 Mixtral 8x7B-Instruct, finetuning 包含 SFT 和 DPO 两个阶段。

Method

模型架构与 Mistral-7B 基本相同,参数如下表所示

ParameterValue
dim4096
n_layers32
head_dim128
hidden_dim14336
n_heads32
n_kv_heads8
window_size4096
context_len32768
vocab_size32000
num_experts8
top_k_experts2

MoE 的架构与 GShard 基本一致

Results

作者探究了专家的 specialization, 结果有三点发现:

  1. 不同专家对于不同 domain 的数据并没有出现 specialization
  2. 在 math domain 上,专家的分布有一个明显的区别。
  3. 连续的 token 往往会被分配到同一个专家上

Conclusion

作者在本文提出了 Mistral 8x7B, 一个 MoE 大语言模型

References

Built with Hugo
Theme Stack designed by Jimmy