LLMNotes on DeepSeek-R1DeepSeek 在 2024 年 5 月提出了 DeepSeek-V2,一个基于 MoE 架构的大语言模型,参数量为 236B-A21B. 作者使用了 MLA 来压缩 KV cache, 使用 DeepSeekMoE 架构来提高模型训练效率和表现。