Introduction
作者在本文中提出了 Mixtral 8x7B, 一个 MoE 模型,模型上下文为 32K. 作者还对模型进行 finetune 得到了 Mixtral 8x7B-Instruct, finetuning 包含 SFT 和 DPO 两个阶段。
Method
模型架构与 Mistral-7B 基本相同,参数如下表所示
| Parameter | Value |
|---|---|
dim | 4096 |
n_layers | 32 |
head_dim | 128 |
hidden_dim | 14336 |
n_heads | 32 |
n_kv_heads | 8 |
window_size | 4096 |
context_len | 32768 |
vocab_size | 32000 |
num_experts | 8 |
top_k_experts | 2 |
MoE 的架构与 GShard 基本一致
Results
作者探究了专家的 specialization, 结果有三点发现:
- 不同专家对于不同 domain 的数据并没有出现 specialization
- 在 math domain 上,专家的分布有一个明显的区别。
- 连续的 token 往往会被分配到同一个专家上
Conclusion
作者在本文提出了 Mistral 8x7B, 一个 MoE 大语言模型