evaluating-code-models | スキル詳細 | OpenClaw Study

HumanEval、MBPP、MultiPL-E を含む 15 を超えるベンチマークで pass@k 指標を用いてコード生成モデルを評価します。コードモデルのベンチマーク作成、コーディング能力の比較、多言語サポートのテスト、あるいはコード生成品質の測定に使用してください。Hugging Face のリーダーボ…

HumanEval、MBPP、MultiPL-E を含む 15 を超えるベンチマークで pass@k 指標を用いてコード生成モデルを評価します。コードモデルのベンチマーク作成、コーディング能力の比較、多言語サポートのテスト、あるいはコード生成品質の測定に使用してください。Hugging Face のリーダーボード...

このページは OpenClaw Skills 学習ハブの一部で、導入手順・カテゴリ導線・実践リンクを提供します。