evaluating-llms-harness | スキル詳細 | OpenClaw Study

MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag など、60以上の学術ベンチマークでLLMを評価します。モデル品質のベンチマーク、モデル比較、学術的な結果の報告、学習経過の追跡に使用してください。EleutherAI、HuggingFace、主要研究機関で利用されている業界標…

このページは OpenClaw Skills 学習ハブの一部で、導入手順・カテゴリ導線・実践リンクを提供します。