对 LLM 驱动的代理进行测试和基准评估,包括行为测试、能力评估、可靠性指标和生产监控——注意即使是表现最好的代理在真实世界基准上也常低于 50%。适用场景:代理测试、代理评估、基准代理、代理可靠性、代理测试。
对 LLM 驱动的代理进行测试和基准评估,包括行为测试、能力评估、可靠性指标和生产监控——注意即使是表现最好的代理在真实世界基准上也常低于 50%。适用场景:代理测试、代理评估、基准代理、代理可靠性、代理测试。
本页属于 OpenClaw Skills 学习体系,覆盖技能安装、分类导航与实战链接。