slime-rl-training | 技能詳情 | OpenClaw Study

提供使用 slime（Megatron+SGLang 框架）進行 LLM 強化學習（RL）後訓練的指導。在訓練 GLM 模型、實作自訂資料生成工作流程或需要 Megatron-LM 緊密整合以擴展 RL 時使用。Reinforcement Learning, Megatron-LM, SGLang, GRPO…

提供使用 slime（Megatron+SGLang 框架）進行 LLM 強化學習（RL）後訓練的指導。在訓練 GLM 模型、實作自訂資料生成工作流程或需要 Megatron-LM 緊密整合以擴展 RL 時使用。Reinforcement Learning, Megatron-LM, SGLang, GRPO,......

本頁屬於 OpenClaw Skills 學習體系，涵蓋技能安裝、分類導覽與實戰連結。