Anthropic 用于通过自我改进训练无害 AI 的方法。两阶段方法——先进行带有自我批评与修订的监督学习,然后进行 RLAIF(来自 AI 反馈的强化学习)。用于安全性对齐,在不依赖人工标注的情况下减少有害输出。为 Claude 的安全系统提供支持。Safety Alignment, Constituti…
Anthropic 用于通过自我改进训练无害 AI 的方法。两阶段方法——先进行带有自我批评与修订的监督学习,然后进行 RLAIF(来自 AI 反馈的强化学习)。用于安全性对齐,在不依赖人工标注的情况下减少有害输出。为 Claude 的安全系统提供支持。Safety Alignment, Constitution......
本页属于 OpenClaw Skills 学习体系,覆盖技能安装、分类导航与实战链接。