evaluating-llms-harness | スキル詳細 | OpenClaw Study

MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag など60以上の学術ベンチマークにわたってLLMを評価します。モデル品質のベンチマーク、モデル比較、学術結果の報告、またはトレーニング進捗の追跡に使用します。EleutherAI、HuggingFace、主要研究所で採用されてい…

このページは OpenClaw Skills 学習ハブの一部で、導入手順・カテゴリ導線・実践リンクを提供します。