evaluating-llms-harness | 技能详情 | OpenClaw Study

在60+学术基准（MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag）上评估LLM。适用于对模型质量进行基准测试、比较模型、报告学术结果或跟踪训练进度。被EleutherAI、HuggingFace和主要实验室采用的行业标准。支持HuggingFace、vLLM和API。

本页属于 OpenClaw Skills 学习体系，覆盖技能安装、分类导航与实战链接。