透過自動化指標、人工回饋與基準測試,為 LLM 應用實作完整的評估策略。在測試 LLM 性能、衡量 AI 應用品質或建立評估框架時使用。
本頁屬於 OpenClaw Skills 學習體系,涵蓋技能安裝、分類導覽與實戰連結。