simpo-training | 技能详情 | OpenClaw Study

用于 LLM 对齐的简单偏好优化。作为 DPO 的无参考模型替代方案，性能更好（在 AlpacaEval 2.0 上提升约 +6.4 分）。无需参考模型，较 DPO 更高效。在你希望比 DPO/PPO 更简单、更快速的训练时用于偏好对齐。Post-Training, SimPO, Preference Opt…

用于 LLM 对齐的简单偏好优化。作为 DPO 的无参考模型替代方案，性能更好（在 AlpacaEval 2.0 上提升约 +6.4 分）。无需参考模型，较 DPO 更高效。在你希望比 DPO/PPO 更简单、更快速的训练时用于偏好对齐。Post-Training, SimPO, Preference Optim......

本页属于 OpenClaw Skills 学习体系，覆盖技能安装、分类导航与实战链接。