llava | スキル詳細 | OpenClaw Study

大規模言語と視覚のアシスタント。視覚指示のチューニングや画像を用いた会話を可能にします。CLIP ベースのビジョンエンコーダーと Vicuna/LLaMA の言語モデルを組み合わせています。マルチターンの画像チャット、視覚的質問応答、指示に従う処理に対応します。ビジョン・ランゲージのチャットボットや画像理解タ…

大規模言語と視覚のアシスタント。視覚指示のチューニングや画像を用いた会話を可能にします。CLIP ベースのビジョンエンコーダーと Vicuna/LLaMA の言語モデルを組み合わせています。マルチターンの画像チャット、視覚的質問応答、指示に従う処理に対応します。ビジョン・ランゲージのチャットボットや画像理解タスク...

このページは OpenClaw Skills 学習ハブの一部で、導入手順・カテゴリ導線・実践リンクを提供します。

English 简体中文 繁體中文 Español Português