openrlhf-training | スキル詳細 | OpenClaw Study

Ray+vLLMアクセラレーションを備えた高性能RLHFフレームワーク。大規模モデル（7B〜70B+）のPPO、GRPO、RLOO、DPOトレーニングに使用。Ray、vLLM、ZeRO-3上に構築。分散アーキテクチャとGPUリソース共有によりDeepSpeedChatより2×高速。Post-Training,…

このページは OpenClaw Skills 学習ハブの一部で、導入手順・カテゴリ導線・実践リンクを提供します。