OpenMythos Recurrent 提供了一个可复用的实现,用于构建和试验受 Claude Mythos 设计启发的 Recurrent-Depth Transformer(RDT)模型。它实现了三阶段流程——Prelude(一次性编码器层)、带有稳定注入的循环 Recurrent Block(学习的…
OpenMythos Recurrent 提供了一个可复用的实现,用于构建和试验受 Claude Mythos 设计启发的 Recurrent-Depth Transformer(RDT)模型。它实现了三阶段流程——Prelude(一次性编码器层)、带有稳定注入的循环 Recurrent Block(学习的 A/B 参数、谱半径约束)和 Coda——通过改变循环迭代次数来实现推理时的深度可扩展。主要特性包括可切换的 MLA(Multi-head Latent Attention)和 GQA(Grouped Query Attention)、带路由或共享专家的稀疏 MoE(Mixture-of-Experts)前馈层,以及用于训练的可配置自适应循环迭代调度。用例包括计算自适应架构研究、参数高效的更深层推理、MoE 路由实验以及可变推理深度生成系统的原型开发。核心优势是高效的权重重用、对推理深度的细粒度控制,以及便于快速试验与部署的模块化注意力/ MoE 配置。
本页属于 OpenClaw Skills 学习体系,覆盖技能安装、分类导航与实战链接。