当用户请求“将 LLM 作为裁判实现”“比较模型输出”“创建评估量表(rubric)”“减轻评估偏差”,或提到直接评分、成对比较、位置偏差、评估管道或自动化质量评估时,应使用此技能。
本页属于 OpenClaw Skills 学习体系,覆盖技能安装、分类导航与实战链接。