eval-driven-dev | 技能详情 | OpenClaw Study

为 Python LLM 应用设置基于评估的 QA：对应用进行插装，构建黄金数据集，编写并运行评估测试，并对失败进行迭代修复。当用户要求设置 QA、添加测试、添加评估、进行评估、基准测试、修复错误行为、提高质量或为任何调用 LLM 的 Python 项目做质量保证时，始终使用此技能。

本页属于 OpenClaw Skills 学习体系，覆盖技能安装、分类导航与实战链接。