通过自动化指标、人工反馈和基准测试为 LLM 应用实现全面的评估策略。在测试 LLM 性能、衡量 AI 应用质量或建立评估框架时使用。
本页属于 OpenClaw Skills 学习体系,覆盖技能安装、分类导航与实战链接。