大規模言語・視覚アシスタント。視覚的指示チューニングと画像ベースの対話を可能にします。CLIPのビジョンエンコーダをVicuna/LLaMA系の言語モデルと組み合わせています。マルチターンの画像チャット、視覚的質問応答、指示の実行に対応します。ビジョン・ランゲージチャットボットや画像理解タスクに適しています。…
大規模言語・視覚アシスタント。視覚的指示チューニングと画像ベースの対話を可能にします。CLIPのビジョンエンコーダをVicuna/LLaMA系の言語モデルと組み合わせています。マルチターンの画像チャット、視覚的質問応答、指示の実行に対応します。ビジョン・ランゲージチャットボットや画像理解タスクに適しています。会話...
このページは OpenClaw Skills 学習ハブの一部で、導入手順・カテゴリ導線・実践リンクを提供します。