nemo-evaluator-sdk | スキル詳細 | OpenClaw Study

複数のバックエンドで実行可能な評価基盤により、18以上のハーネス(MMLU、HumanEval、GSM8K、安全性テスト、VLM など)から100以上のベンチマークでLLMを評価します。ローカルのDocker、Slurm HPC、クラウド環境でスケーラブルな評価が必要な場合に適しています。NVIDIAのコンテ…

複数のバックエンドで実行可能な評価基盤により、18以上のハーネス(MMLU、HumanEval、GSM8K、安全性テスト、VLM など)から100以上のベンチマークでLLMを評価します。ローカルのDocker、Slurm HPC、クラウド環境でスケーラブルな評価が必要な場合に適しています。NVIDIAのコンテナフ...

このページは OpenClaw Skills 学習ハブの一部で、導入手順・カテゴリ導線・実践リンクを提供します。

English 简体中文 繁體中文 Español Português