eval-driven-dev | 技能詳情 | OpenClaw Study

為 Python LLM 應用設定基於評估的 QA:對應用進行插裝(instrument),構建黃金資料集,撰寫並執行評估測試,並對失敗進行反覆修正。當使用者要求設定 QA、加入測試、加入評估、執行評估、做基準測試、修正錯誤行為、提升品質或為任何呼叫 LLM 的 Python 專案做品質保證時,務必使用此技能。

為 Python LLM 應用設定基於評估的 QA:對應用進行插裝(instrument),構建黃金資料集,撰寫並執行評估測試,並對失敗進行反覆修正。當使用者要求設定 QA、加入測試、加入評估、執行評估、做基準測試、修正錯誤行為、提升品質或為任何呼叫 LLM 的 Python 專案做品質保證時,務必使用此技能。

本頁屬於 OpenClaw Skills 學習體系,涵蓋技能安裝、分類導覽與實戰連結。

English 简体中文 日本語 Español Português