通过多后端执行,在来自18+套测试框架(MMLU、HumanEval、GSM8K、安全性、VLM 等)的100+基准上评估大规模语言模型(LLM)。适用于需要在本地 Docker、Slurm HPC 或云平台上进行可扩展评估的场景。NVIDIA 的企业级平台,采用容器优先架构以实现可复现的基准测试。Evalu…
通过多后端执行,在来自18+套测试框架(MMLU、HumanEval、GSM8K、安全性、VLM 等)的100+基准上评估大规模语言模型(LLM)。适用于需要在本地 Docker、Slurm HPC 或云平台上进行可扩展评估的场景。NVIDIA 的企业级平台,采用容器优先架构以实现可复现的基准测试。Evaluat......
本页属于 OpenClaw Skills 学习体系,覆盖技能安装、分类导航与实战链接。