Evalúa LLMs en más de 60 benchmarks académicos (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Úsalo para medir la calidad del modelo, comparar modelos, i…
Evalúa LLMs en más de 60 benchmarks académicos (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Úsalo para medir la calidad del modelo, comparar modelos, inf...
Esta página forma parte del hub OpenClaw Skills con guías de instalación, categorías y enlaces prácticos.