nemo-evaluator-sdk | 技能詳情 | OpenClaw Study

透過多後端執行,在來自18+個測試工具(MMLU、HumanEval、GSM8K、安全性、VLM 等)的100+項基準上評估大型語言模型(LLM)。適用於需要在本地 Docker、Slurm HPC 或雲端平台上進行可擴充評估的情境。NVIDIA 的企業級平台,採用容器優先架構以實現可重現的基準測試。Eval…

透過多後端執行,在來自18+個測試工具(MMLU、HumanEval、GSM8K、安全性、VLM 等)的100+項基準上評估大型語言模型(LLM)。適用於需要在本地 Docker、Slurm HPC 或雲端平台上進行可擴充評估的情境。NVIDIA 的企業級平台,採用容器優先架構以實現可重現的基準測試。Evalua......

本頁屬於 OpenClaw Skills 學習體系,涵蓋技能安裝、分類導覽與實戰連結。

English 简体中文 日本語 Español Português