使用 TRL 通过强化学习对大语言模型进行微调——SFT 用于指令微调,DPO 用于偏好对齐,PPO/GRPO 用于奖励优化,并支持奖励模型训练。在需要 RLHF、将模型与偏好对齐或从人类反馈中训练时使用。兼容 Hugging Face Transformers。
使用 TRL 通过强化学习对大语言模型进行微调——SFT 用于指令微调,DPO 用于偏好对齐,PPO/GRPO 用于奖励优化,并支持奖励模型训练。在需要 RLHF、将模型与偏好对齐或从人类反馈中训练时使用。兼容 Hugging Face Transformers。
本页属于 OpenClaw Skills 学习体系,覆盖技能安装、分类导航与实战链接。