simpo-training | 技能詳情 | OpenClaw Study

用於 LLM 對齊的簡單偏好優化。作為 DPO 的無參考模型替代方案，性能更佳（在 AlpacaEval 2.0 上提升約 +6.4 分）。不需要參考模型，較 DPO 更高效。當你想要比 DPO/PPO 更簡單、更快速的訓練時，用於偏好對齊。Post-Training, SimPO, Preference O…

用於 LLM 對齊的簡單偏好優化。作為 DPO 的無參考模型替代方案，性能更佳（在 AlpacaEval 2.0 上提升約 +6.4 分）。不需要參考模型，較 DPO 更高效。當你想要比 DPO/PPO 更簡單、更快速的訓練時，用於偏好對齊。Post-Training, SimPO, Preference Opt......

本頁屬於 OpenClaw Skills 學習體系，涵蓋技能安裝、分類導覽與實戰連結。