eval-driven-dev | 技能詳情 | OpenClaw Study

為 Python LLM 應用設定基於評估的 QA：對應用進行插裝（instrument），構建黃金資料集，撰寫並執行評估測試，並對失敗進行反覆修正。當使用者要求設定 QA、加入測試、加入評估、執行評估、做基準測試、修正錯誤行為、提升品質或為任何呼叫 LLM 的 Python 專案做品質保證時，務必使用此技能。

本頁屬於 OpenClaw Skills 學習體系，涵蓋技能安裝、分類導覽與實戰連結。