constitutional-ai | 技能詳情 | OpenClaw Study

Anthropic 用於透過自我改進來訓練無害 AI 的方法。兩階段方法——先進行帶有自我批評與修訂的監督式學習，然後進行 RLAIF（來自 AI 回饋的強化學習）。用於安全性對齊，在不依賴人工標注的情況下減少有害輸出。為 Claude 的安全系統提供動力。Safety Alignment, Constitu…

Anthropic 用於透過自我改進來訓練無害 AI 的方法。兩階段方法——先進行帶有自我批評與修訂的監督式學習，然後進行 RLAIF（來自 AI 回饋的強化學習）。用於安全性對齊，在不依賴人工標注的情況下減少有害輸出。為 Claude 的安全系統提供動力。Safety Alignment, Constituti......

本頁屬於 OpenClaw Skills 學習體系，涵蓋技能安裝、分類導覽與實戰連結。