evaluating-llms-harness | detalle de la skill | OpenClaw Study

Evalúa LLMs en más de 60 benchmarks académicos (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Úselo para evaluar la calidad del modelo, comparar modelos,…

Evalúa LLMs en más de 60 benchmarks académicos (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Úselo para evaluar la calidad del modelo, comparar modelos, i...

Esta página forma parte del hub OpenClaw Skills con guías de instalación, categorías y enlaces prácticos.