pure-trm-trainer | 技能詳情 | OpenClaw Study

在 Hermes 下構建並執行純 TRM 控制器的訓練工作流程，包括從 TRM 播放日誌組裝語料、事件日誌、推理追蹤、規範化的 JSONL 資料集、路由器 QLoRA 訓練，以及針對泛化水準的爬山（hill-climbing）搜尋迴圈。當 Codex 需要策畫跨環境的控制器資料、將日誌轉為指揮者（conduc…

在 Hermes 下構建並執行純 TRM 控制器的訓練工作流程，包括從 TRM 播放日誌組裝語料、事件日誌、推理追蹤、規範化的 JSONL 資料集、路由器 QLoRA 訓練，以及針對泛化水準的爬山（hill-climbing）搜尋迴圈。當 Codex 需要策畫跨環境的控制器資料、將日誌轉為指揮者（conducto...

本頁屬於 OpenClaw Skills 學習體系，涵蓋技能安裝、分類導覽與實戰連結。