Notes on DPO

作者提出了 DPO,一个无需 reward model 的偏好优化方法,DPO通过隐式建模reward model而直接基于数据集训练policy model, 进而大幅度提高了 LLM 偏好优化的训练效率