为 Python LLM 应用设置基于评估的 QA:对应用进行插装,构建黄金数据集,编写并运行评估测试,并对失败进行迭代修复。当用户要求设置 QA、添加测试、添加评估、进行评估、基准测试、修复错误行为、提高质量或为任何调用 LLM 的 Python 项目做质量保证时,始终使用此技能。
为 Python LLM 应用设置基于评估的 QA:对应用进行插装,构建黄金数据集,编写并运行评估测试,并对失败进行迭代修复。当用户要求设置 QA、添加测试、添加评估、进行评估、基准测试、修复错误行为、提高质量或为任何调用 LLM 的 Python 项目做质量保证时,始终使用此技能。
本页属于 OpenClaw Skills 学习体系,覆盖技能安装、分类导航与实战链接。