evaluating-llms-harness | スキル詳細 | OpenClaw Study

MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag など60以上の学術ベンチマークでLLMを評価します。モデル品質のベンチマーク、モデル比較、学術成果の報告、学習進捗の追跡に使用してください。EleutherAI、HuggingFace、主要な研究所で使われている業界標準です。…

このページは OpenClaw Skills 学習ハブの一部で、導入手順・カテゴリ導線・実践リンクを提供します。