evaluating-code-models | 技能詳情 | OpenClaw Study

在 HumanEval、MBPP、MultiPL-E 等 15+ 基準上使用 pass@k 指標評估程式碼生成模型。用於對程式碼模型進行基準測試、比較程式設計能力、測試多語言支援或衡量程式碼生成品質。這是 Hugging Face 排行榜採用的 BigCode 專案行業標準。Evaluation, Code…

在 HumanEval、MBPP、MultiPL-E 等 15+ 基準上使用 pass@k 指標評估程式碼生成模型。用於對程式碼模型進行基準測試、比較程式設計能力、測試多語言支援或衡量程式碼生成品質。這是 Hugging Face 排行榜採用的 BigCode 專案行業標準。Evaluation, Code Ge......

本頁屬於 OpenClaw Skills 學習體系，涵蓋技能安裝、分類導覽與實戰連結。