evaluating-code-models | 技能详情 | OpenClaw Study

在 HumanEval、MBPP、MultiPL-E 等 15+ 基准上使用 pass@k 指标评估代码生成模型。用于对代码模型进行基准测试、比较编程能力、测试多语言支持或衡量代码生成质量。该方法为 Hugging Face 排行榜采用的 BigCode 项目行业标准。Evaluation, Code Gen…

在 HumanEval、MBPP、MultiPL-E 等 15+ 基准上使用 pass@k 指标评估代码生成模型。用于对代码模型进行基准测试、比较编程能力、测试多语言支持或衡量代码生成质量。该方法为 Hugging Face 排行榜采用的 BigCode 项目行业标准。Evaluation, Code Gener......

本页属于 OpenClaw Skills 学习体系，覆盖技能安装、分类导航与实战链接。