evaluation | スキル詳細 | OpenClaw Study

ユーザーが「エージェントのパフォーマンスを評価する」「テストフレームワークを構築する」「エージェントの品質を測定する」「評価ルーブリックを作成する」といった要求をしたり、LLMを審査役として用いること(LLM-as-judge)、多次元評価、エージェントのテスト、エージェントパイプラインの品質ゲートに言及した…

ユーザーが「エージェントのパフォーマンスを評価する」「テストフレームワークを構築する」「エージェントの品質を測定する」「評価ルーブリックを作成する」といった要求をしたり、LLMを審査役として用いること(LLM-as-judge)、多次元評価、エージェントのテスト、エージェントパイプラインの品質ゲートに言及したとき...

このページは OpenClaw Skills 学習ハブの一部で、導入手順・カテゴリ導線・実践リンクを提供します。

English 简体中文 繁體中文 Español Português