提供使用 slime(Megatron+SGLang 框架)進行 LLM 強化學習(RL)後訓練的指導。在訓練 GLM 模型、實作自訂資料生成工作流程或需要 Megatron-LM 緊密整合以擴展 RL 時使用。Reinforcement Learning, Megatron-LM, SGLang, GRPO…
提供使用 slime(Megatron+SGLang 框架)進行 LLM 強化學習(RL)後訓練的指導。在訓練 GLM 模型、實作自訂資料生成工作流程或需要 Megatron-LM 緊密整合以擴展 RL 時使用。Reinforcement Learning, Megatron-LM, SGLang, GRPO,......
本頁屬於 OpenClaw Skills 學習體系,涵蓋技能安裝、分類導覽與實戰連結。