agent-evaluation | 技能詳情 | OpenClaw Study

對 LLM 驅動的代理進行測試與基準評估,包括行為測試、能力評估、可靠性指標與生產監控——注意即使是表現最好的代理在真實世界基準上也常低於 50%。使用情境:代理測試、代理評估、基準代理、代理可靠性、代理測試。

對 LLM 驅動的代理進行測試與基準評估,包括行為測試、能力評估、可靠性指標與生產監控——注意即使是表現最好的代理在真實世界基準上也常低於 50%。使用情境:代理測試、代理評估、基準代理、代理可靠性、代理測試。

本頁屬於 OpenClaw Skills 學習體系,涵蓋技能安裝、分類導覽與實戰連結。

English 简体中文 日本語 Español Português