evaluating-llms-harness | 技能詳情 | OpenClaw Study

在 60 多項學術基準(MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag)上評估 LLM。用於基準測試模型品質、比較模型、報告學術結果或追蹤訓練進度。由 EleutherAI、HuggingFace 與主要實驗室採用的業界標準。支援 HuggingFace、vLLM、API。

在 60 多項學術基準(MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag)上評估 LLM。用於基準測試模型品質、比較模型、報告學術結果或追蹤訓練進度。由 EleutherAI、HuggingFace 與主要實驗室採用的業界標準。支援 HuggingFace、vLLM、API。

本頁屬於 OpenClaw Skills 學習體系,涵蓋技能安裝、分類導覽與實戰連結。

English 简体中文 日本語 Español Português