當使用者要求「評估代理效能」、「建立測試框架」、「衡量代理品質」、「建立評估標準」或提到 LLM 作為評判、多維度評估、代理測試或代理管線的品質閘時,應使用此技能。
本頁屬於 OpenClaw Skills 學習體系,涵蓋技能安裝、分類導覽與實戰連結。