具備 Ray+vLLM 加速的高效能 RLHF 框架。用於大型模型(7B–70B+)的 PPO、GRPO、RLOO、DPO 訓練。建置於 Ray、vLLM、ZeRO-3 之上。透過分散式架構與 GPU 資源共享,比 DeepSpeedChat 快 2×。Post-Training, OpenRLHF, RLH…
具備 Ray+vLLM 加速的高效能 RLHF 框架。用於大型模型(7B–70B+)的 PPO、GRPO、RLOO、DPO 訓練。建置於 Ray、vLLM、ZeRO-3 之上。透過分散式架構與 GPU 資源共享,比 DeepSpeedChat 快 2×。Post-Training, OpenRLHF, RLHF,......
本頁屬於 OpenClaw Skills 學習體系,涵蓋技能安裝、分類導覽與實戰連結。