Ajusta finamente LLMs mediante aprendizaje por refuerzo con TRL: SFT para ajuste de instrucciones, DPO para alineación de preferencias, PPO/GRPO para optim…
Ajusta finamente LLMs mediante aprendizaje por refuerzo con TRL: SFT para ajuste de instrucciones, DPO para alineación de preferencias, PPO/GRPO para optimiz...
Esta página forma parte del hub OpenClaw Skills con guías de instalación, categorías y enlaces prácticos.