pure-trm-trainer | 技能詳情 | OpenClaw Study

在 Hermes 下構建並執行純 TRM 控制器的訓練工作流程,包括從 TRM 播放日誌組裝語料、事件日誌、推理追蹤、規範化的 JSONL 資料集、路由器 QLoRA 訓練,以及針對泛化水準的爬山(hill-climbing)搜尋迴圈。當 Codex 需要策畫跨環境的控制器資料、將日誌轉為指揮者(conduc…

在 Hermes 下構建並執行純 TRM 控制器的訓練工作流程,包括從 TRM 播放日誌組裝語料、事件日誌、推理追蹤、規範化的 JSONL 資料集、路由器 QLoRA 訓練,以及針對泛化水準的爬山(hill-climbing)搜尋迴圈。當 Codex 需要策畫跨環境的控制器資料、將日誌轉為指揮者(conducto...

本頁屬於 OpenClaw Skills 學習體系,涵蓋技能安裝、分類導覽與實戰連結。

English 简体中文 日本語 Español Português