用於 LLM 對齊的簡單偏好優化。作為 DPO 的無參考模型替代方案,性能更佳(在 AlpacaEval 2.0 上提升約 +6.4 分)。不需要參考模型,較 DPO 更高效。當你想要比 DPO/PPO 更簡單、更快速的訓練時,用於偏好對齊。Post-Training, SimPO, Preference O…
用於 LLM 對齊的簡單偏好優化。作為 DPO 的無參考模型替代方案,性能更佳(在 AlpacaEval 2.0 上提升約 +6.4 分)。不需要參考模型,較 DPO 更高效。當你想要比 DPO/PPO 更簡單、更快速的訓練時,用於偏好對齊。Post-Training, SimPO, Preference Opt......
本頁屬於 OpenClaw Skills 學習體系,涵蓋技能安裝、分類導覽與實戰連結。