Skip to main content作者提出了 DPO,一个无需 reward model 的偏好优化方法,DPO通过隐式建模reward model而直接基于数据集训练policy model, 进而大幅度提高了 LLM 偏好优化的训练效率 DeepSeek 在 24 年 11 月发布了 DeepSeek-V3, 一个仅花费 2.8M H800 hours 的大语言模型,且在各个 benchmark 上达到了 SOTA 表现 DeepMind 在 6 月 17 号发布了 Gemini2.5 系列的技术报告,包括Pro和Flash两个版本 NUS 等提出了 OpenMoE, 一个全开源的 MoE 大语言模型系列,作者详细介绍了 MoE 中的 routing 机制 Qwen 在 25 年 11 月 27 日发布了 Qwen3-VL 技术报告,作者强调了模型的纯文本理解能力,长文本能力以及多模态推理能力。