用于 LLM 对齐的简单偏好优化。作为 DPO 的无参考模型替代方案,性能更好(在 AlpacaEval 2.0 上提升约 +6.4 分)。无需参考模型,较 DPO 更高效。在你希望比 DPO/PPO 更简单、更快速的训练时用于偏好对齐。Post-Training, SimPO, Preference Opt…
用于 LLM 对齐的简单偏好优化。作为 DPO 的无参考模型替代方案,性能更好(在 AlpacaEval 2.0 上提升约 +6.4 分)。无需参考模型,较 DPO 更高效。在你希望比 DPO/PPO 更简单、更快速的训练时用于偏好对齐。Post-Training, SimPO, Preference Optim......
本页属于 OpenClaw Skills 学习体系,覆盖技能安装、分类导航与实战链接。