eval-driven-dev | スキル詳細 | OpenClaw Study

Python の LLM アプリケーション向けに評価ベースの QA を設定します：アプリに計測用の仕組みを組み込み、ゴールデンデータセットを構築し、評価テストを作成して実行し、失敗を繰り返し改善します。ユーザーが QA の設定、テストの追加、評価の追加、評価実行、ベンチマーク、誤動作の修正、品質向上、または…

Python の LLM アプリケーション向けに評価ベースの QA を設定します：アプリに計測用の仕組みを組み込み、ゴールデンデータセットを構築し、評価テストを作成して実行し、失敗を繰り返し改善します。ユーザーが QA の設定、テストの追加、評価の追加、評価実行、ベンチマーク、誤動作の修正、品質向上、または LL...

このページは OpenClaw Skills 学習ハブの一部で、導入手順・カテゴリ導線・実践リンクを提供します。