Elimina comportamientos de rechazo (refusal) en LLMs de pesos abiertos usando OBLITERATUS — técnicas de interpretabilidad mecánica (diff-in-means, SVD, SVD…
Elimina comportamientos de rechazo (refusal) en LLMs de pesos abiertos usando OBLITERATUS — técnicas de interpretabilidad mecánica (diff-in-means, SVD, SVD b...
Esta página forma parte del hub OpenClaw Skills con guías de instalación, categorías y enlaces prácticos.