constitutional-ai | 技能详情 | OpenClaw Study

Anthropic 用于通过自我改进训练无害 AI 的方法。两阶段方法——先进行带有自我批评与修订的监督学习,然后进行 RLAIF(来自 AI 反馈的强化学习)。用于安全性对齐,在不依赖人工标注的情况下减少有害输出。为 Claude 的安全系统提供支持。Safety Alignment, Constituti…

Anthropic 用于通过自我改进训练无害 AI 的方法。两阶段方法——先进行带有自我批评与修订的监督学习,然后进行 RLAIF(来自 AI 反馈的强化学习)。用于安全性对齐,在不依赖人工标注的情况下减少有害输出。为 Claude 的安全系统提供支持。Safety Alignment, Constitution......

本页属于 OpenClaw Skills 学习体系,覆盖技能安装、分类导航与实战链接。

English 繁體中文 日本語 Español Português