obliteratus | スキル詳細 | OpenClaw Study

OBLITERATUS を使用して、オープンウェイトの大規模言語モデル（LLM）から拒否（refusal）行動を除去します。差の平均（diff-in-means）、SVD、白色化（whitened）SVD、LEACE、SAE 分解などの機械的可解釈性手法を用いて、推論能力を保ったままガードレール（安全策）を切…

このページは OpenClaw Skills 学習ハブの一部で、導入手順・カテゴリ導線・実践リンクを提供します。