agent-evaluation | 技能詳情 | OpenClaw Study

對 LLM 驅動的代理進行測試與基準評估，包括行為測試、能力評估、可靠性指標與生產監控——注意即使是表現最好的代理在真實世界基準上也常低於 50%。使用情境：代理測試、代理評估、基準代理、代理可靠性、代理測試。

本頁屬於 OpenClaw Skills 學習體系，涵蓋技能安裝、分類導覽與實戰連結。