advanced-evaluation | 技能詳情 | OpenClaw Study

當使用者要求「將 LLM 作為裁判實作」、「比較模型輸出」、「建立評估量表(rubric)」、「緩解評估偏誤」,或提到直接評分、成對比較、位置偏誤、評估流程管線或自動化品質評估時,應使用此技能。

當使用者要求「將 LLM 作為裁判實作」、「比較模型輸出」、「建立評估量表(rubric)」、「緩解評估偏誤」,或提到直接評分、成對比較、位置偏誤、評估流程管線或自動化品質評估時,應使用此技能。

本頁屬於 OpenClaw Skills 學習體系,涵蓋技能安裝、分類導覽與實戰連結。

English 简体中文 日本語 Español Português