Notes on DPO

作者提出了 DPO,一个无需 reward model 的偏好优化方法,DPO通过隐式建模reward model而直接基于数据集训练policy model, 进而大幅度提高了 LLM 偏好优化的训练效率

Notes on olmoe

NUS 等提出了 OpenMoE, 一个全开源的 MoE 大语言模型系列,作者详细介绍了 MoE 中的 routing 机制

Notes on Qwen3 VL

Qwen 在 25 年 11 月 27 日发布了 Qwen3-VL 技术报告,作者强调了模型的纯文本理解能力,长文本能力以及多模态推理能力。