solver-benchmark-consensus-levels | detalle de la skill | OpenClaw Study

Esta Skill implementa una clasificación estandarizada de Niveles de Consenso para solver-benchmarking: etiqueta el acuerdo entre solvedores como FULL, MAJO…

Esta Skill implementa una clasificación estandarizada de Niveles de Consenso para solver-benchmarking: etiqueta el acuerdo entre solvedores como FULL, MAJORITY, SPLIT o NO_CONSENSUS basándose en comprobaciones estadísticas pareadas. Para comparaciones típicas de tres solvedores evalúa todos los pares de solvedores usando correlación de Pearson (>0.99) y error cuadrático medio (RMS) (< tolerancia configurable) y aplica las reglas de la tabla: FULL (todos los pares cumplen los criterios), MAJORITY (dos pares), SPLIT (un par), NO_CONSENSUS (ninguno). Las características clave incluyen cálculo automatizado de métricas pareadas, tolerancia RMS y umbral de correlación configurables, reglas de decisión claras y etiquetas de consenso legibles por máquina para pipelines. Casos de uso: benchmarking de solvedores numéricos, pruebas de regresión, comparación de modelos, control de calidad automatizado y triaje/priorización de conjuntos de resultados. Las ventajas principales son una evaluación de consenso reproducible e interpretable y la fácil integración en informes de benchmark y flujos de visualización.

Esta página forma parte del hub OpenClaw Skills con guías de instalación, categorías y enlaces prácticos.

English 简体中文 繁體中文 日本語 Português