nemo-evaluator-sdk | 技能详情 | OpenClaw Study

通过多后端执行，在来自18+套测试框架（MMLU、HumanEval、GSM8K、安全性、VLM 等）的100+基准上评估大规模语言模型（LLM）。适用于需要在本地 Docker、Slurm HPC 或云平台上进行可扩展评估的场景。NVIDIA 的企业级平台，采用容器优先架构以实现可复现的基准测试。Evalu…

本页属于 OpenClaw Skills 学习体系，覆盖技能安装、分类导航与实战链接。