evaluating-llms-harness | 技能详情 | OpenClaw Study

在60多个学术基准(如 MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag)上评估大型语言模型。适用于模型质量基准测试、模型比较、学术结果报告或跟踪训练进展。被 EleutherAI、HuggingFace 及主要实验室采用的行业标准。支持 HuggingFace、vLLM 和…

在60多个学术基准(如 MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag)上评估大型语言模型。适用于模型质量基准测试、模型比较、学术结果报告或跟踪训练进展。被 EleutherAI、HuggingFace 及主要实验室采用的行业标准。支持 HuggingFace、vLLM 和基于...

本页属于 OpenClaw Skills 学习体系,覆盖技能安装、分类导航与实战链接。

English 繁體中文 日本語 Español Português