evaluating-llms-harness | 技能详情 | OpenClaw Study

在 60 多个学术基准(MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag)上评估 LLM。用于基准测试模型质量、比较模型、报告学术结果或跟踪训练进展。由 EleutherAI、HuggingFace 及主要实验室采用的行业标准。支持 HuggingFace、vLLM、API。

在 60 多个学术基准(MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag)上评估 LLM。用于基准测试模型质量、比较模型、报告学术结果或跟踪训练进展。由 EleutherAI、HuggingFace 及主要实验室采用的行业标准。支持 HuggingFace、vLLM、API。

本页属于 OpenClaw Skills 学习体系,覆盖技能安装、分类导航与实战链接。

English 繁體中文 日本語 Español Português