OBLITERATUS を使用して、オープンウェイトの大規模言語モデル(LLM)から拒否(refusal)行動を除去します。差の平均(diff-in-means)、SVD、白色化(whitened)SVD、LEACE、SAE 分解などの機械的可解釈性手法を用いて、推論能力を保ったままガードレール(安全策)を切…
OBLITERATUS を使用して、オープンウェイトの大規模言語モデル(LLM)から拒否(refusal)行動を除去します。差の平均(diff-in-means)、SVD、白色化(whitened)SVD、LEACE、SAE 分解などの機械的可解釈性手法を用いて、推論能力を保ったままガードレール(安全策)を切り取...
このページは OpenClaw Skills 学習ハブの一部で、導入手順・カテゴリ導線・実践リンクを提供します。