在 HumanEval、MBPP、MultiPL-E 等 15+ 基准上使用 pass@k 指标评估代码生成模型。用于对代码模型进行基准测试、比较编程能力、测试多语言支持或衡量代码生成质量。该方法为 Hugging Face 排行榜采用的 BigCode 项目行业标准。Evaluation, Code Gen…
在 HumanEval、MBPP、MultiPL-E 等 15+ 基准上使用 pass@k 指标评估代码生成模型。用于对代码模型进行基准测试、比较编程能力、测试多语言支持或衡量代码生成质量。该方法为 Hugging Face 排行榜采用的 BigCode 项目行业标准。Evaluation, Code Gener......
本页属于 OpenClaw Skills 学习体系,覆盖技能安装、分类导航与实战链接。