Evalúa LLMs en más de 60 benchmarks académicos (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Úsalo para evaluar la calidad de modelos, comparar modelos,…
Evalúa LLMs en más de 60 benchmarks académicos (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Úsalo para evaluar la calidad de modelos, comparar modelos, r...
Esta página forma parte del hub OpenClaw Skills con guías de instalación, categorías y enlaces prácticos.