pure-trm-trainer | 技能详情 | OpenClaw Study

在 Hermes 下构建并运行纯 TRM 控制器的训练工作流,包括从 TRM 播放日志组装语料、事件日志、推理追踪、规范化的 JSONL 数据集、路由器 QLoRA 训练,以及针对泛化水平的爬山(hill-climbing)搜索循环。当 Codex 需要策划跨环境的控制器数据、将日志转换为指挥者(conduc…

在 Hermes 下构建并运行纯 TRM 控制器的训练工作流,包括从 TRM 播放日志组装语料、事件日志、推理追踪、规范化的 JSONL 数据集、路由器 QLoRA 训练,以及针对泛化水平的爬山(hill-climbing)搜索循环。当 Codex 需要策划跨环境的控制器数据、将日志转换为指挥者(conducto...

本页属于 OpenClaw Skills 学习体系,覆盖技能安装、分类导航与实战链接。

English 繁體中文 日本語 Español Português