提供使用 slime(Megatron+SGLang 框架)进行 LLM 强化学习(RL)后训练的指导。在训练 GLM 模型、实现自定义数据生成工作流或需要 Megatron-LM 的紧密集成以扩展 RL 时使用。Reinforcement Learning, Megatron-LM, SGLang, GRP…
提供使用 slime(Megatron+SGLang 框架)进行 LLM 强化学习(RL)后训练的指导。在训练 GLM 模型、实现自定义数据生成工作流或需要 Megatron-LM 的紧密集成以扩展 RL 时使用。Reinforcement Learning, Megatron-LM, SGLang, GRPO,......
本页属于 OpenClaw Skills 学习体系,覆盖技能安装、分类导航与实战链接。