evaluating-llms-harness | 技能详情 | OpenClaw Study

在60多个学术基准（如 MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag）上评估大型语言模型。适用于模型质量基准测试、模型比较、学术结果报告或跟踪训练进展。被 EleutherAI、HuggingFace 及主要实验室采用的行业标准。支持 HuggingFace、vLLM 和…

本页属于 OpenClaw Skills 学习体系，覆盖技能安装、分类导航与实战链接。