作者提出了 DPO,一个无需 reward model 的偏好优化方法,DPO通过隐式建模reward model而直接基于数据集训练policy model, 进而大幅度提高了 LLM 偏好优化的训练效率
DeepSeek 在 24 年 11 月发布了 DeepSeek-V3, 一个仅花费 2.8M H800 hours 的大语言模型,且在各个 benchmark 上达到了 SOTA 表现
DeepMind 在 6 月 17 号发布了 Gemini2.5 系列的技术报告,包括Pro和Flash两个版本
AllenAI 在 24 年 9 月提出了 olmoe, 一个全开源的基于 MoE 架构的大语言模型,参数量为 7B-A1B,作者详细介绍了模型的设计,数据以及训练策略. 论文获得了ICLR2025 oral
Qwen 在 25 年 11 月 27 日发布了 Qwen3-VL 技术报告,作者强调了模型的纯文本理解能力,长文本能力以及多模态推理能力。