fine-tuning-with-trl | 技能詳情 | OpenClaw Study

使用 TRL 透過強化學習微調大型語言模型：SFT 用於指令微調，DPO 用於偏好對齊，PPO/GRPO 用於報酬優化，並支援報酬模型訓練。當需要 RLHF、將模型與偏好對齊或從人類回饋中訓練時使用。可與 Hugging Face Transformers 一起使用。

本頁屬於 OpenClaw Skills 學習體系，涵蓋技能安裝、分類導覽與實戰連結。