slime-rl-training | 技能詳情 | OpenClaw Study

提供使用 slime(Megatron+SGLang 框架)進行 LLM 強化學習(RL)後訓練的指導。在訓練 GLM 模型、實作自訂資料生成工作流程或需要 Megatron-LM 緊密整合以擴展 RL 時使用。Reinforcement Learning, Megatron-LM, SGLang, GRPO…

提供使用 slime(Megatron+SGLang 框架)進行 LLM 強化學習(RL)後訓練的指導。在訓練 GLM 模型、實作自訂資料生成工作流程或需要 Megatron-LM 緊密整合以擴展 RL 時使用。Reinforcement Learning, Megatron-LM, SGLang, GRPO,......

本頁屬於 OpenClaw Skills 學習體系,涵蓋技能安裝、分類導覽與實戰連結。

English 简体中文 日本語 Español Português