使用 TRL 透過強化學習微調大型語言模型:SFT 用於指令微調,DPO 用於偏好對齊,PPO/GRPO 用於報酬優化,並支援報酬模型訓練。當需要 RLHF、將模型與偏好對齊或從人類回饋中訓練時使用。可與 Hugging Face Transformers 一起使用。
使用 TRL 透過強化學習微調大型語言模型:SFT 用於指令微調,DPO 用於偏好對齊,PPO/GRPO 用於報酬優化,並支援報酬模型訓練。當需要 RLHF、將模型與偏好對齊或從人類回饋中訓練時使用。可與 Hugging Face Transformers 一起使用。
本頁屬於 OpenClaw Skills 學習體系,涵蓋技能安裝、分類導覽與實戰連結。