constitutional-ai | 技能详情 | OpenClaw Study

Anthropic 用于通过自我改进训练无害 AI 的方法。两阶段方法——先进行带有自我批评与修订的监督学习，然后进行 RLAIF（来自 AI 反馈的强化学习）。用于安全性对齐，在不依赖人工标注的情况下减少有害输出。为 Claude 的安全系统提供支持。Safety Alignment, Constituti…

Anthropic 用于通过自我改进训练无害 AI 的方法。两阶段方法——先进行带有自我批评与修订的监督学习，然后进行 RLAIF（来自 AI 反馈的强化学习）。用于安全性对齐，在不依赖人工标注的情况下减少有害输出。为 Claude 的安全系统提供支持。Safety Alignment, Constitution......

本页属于 OpenClaw Skills 学习体系，覆盖技能安装、分类导航与实战链接。