在60+学术基准(MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag)上评估LLM。适用于对模型质量进行基准测试、比较模型、报告学术结果或跟踪训练进度。被EleutherAI、HuggingFace和主要实验室采用的行业标准。支持HuggingFace、vLLM和API。
在60+学术基准(MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag)上评估LLM。适用于对模型质量进行基准测试、比较模型、报告学术结果或跟踪训练进度。被EleutherAI、HuggingFace和主要实验室采用的行业标准。支持HuggingFace、vLLM和API。
本页属于 OpenClaw Skills 学习体系,覆盖技能安装、分类导航与实战链接。