Qwen 在 25 年 11 月提出了 SAPO,一个通过温度控制的 soft gate 以及非对称温度来解决 hard-clpping 存在的问题,从而提高 RL 训练的稳定性以及效率
作者提出了 DeepStack, 用于帮助MLLM更好地利用视觉信息,进而提高模型在下游任务上的表现
Google 在 21 年提出了 ViT, 一个基于 Transformer 的图像识别模型架构,作者通过实验验证了 Transformer 架构在图像识别领域的成功。
作者提出了一个针对 vision foundation model 的 continual multimodal pretraining pipeline, 用于提高模型在下游任务上的表现
DeepSeek 在 2024 年 5 月提出了 DeepSeek-V2,一个基于 MoE 架构的大语言模型,参数量为 236B-A21B. 作者使用了 MLA 来压缩 KV cache, 使用 DeepSeekMoE 架构来提高模型训练效率和表现。