带 Ray+vLLM 加速的高性能 RLHF 框架。用于大模型(7B-70B+)的 PPO、GRPO、RLOO、DPO 训练。基于 Ray、vLLM、ZeRO-3 构建。通过分布式架构和 GPU 资源共享,比 DeepSpeedChat 快 2×。Post-Training, OpenRLHF, RLHF,…
带 Ray+vLLM 加速的高性能 RLHF 框架。用于大模型(7B-70B+)的 PPO、GRPO、RLOO、DPO 训练。基于 Ray、vLLM、ZeRO-3 构建。通过分布式架构和 GPU 资源共享,比 DeepSpeedChat 快 2×。Post-Training, OpenRLHF, RLHF, PP......
本页属于 OpenClaw Skills 学习体系,覆盖技能安装、分类导航与实战链接。