evaluating-code-models | detalle de la skill | OpenClaw Study

Evalúa modelos de generación de código en HumanEval, MBPP, MultiPL-E y más de 15 benchmarks usando métricas pass@k. Úsalo para comparar modelos de código,…

Evalúa modelos de generación de código en HumanEval, MBPP, MultiPL-E y más de 15 benchmarks usando métricas pass@k. Úsalo para comparar modelos de código, co...

Esta página forma parte del hub OpenClaw Skills con guías de instalación, categorías y enlaces prácticos.