clip | スキル詳細 | OpenClaw Study

視覚と言語をつなぐOpenAIのモデル。ゼロショットの画像分類、画像とテキストのマッチング、クロスモーダル検索を可能にします。4億件の画像・テキスト対で学習済み。ファインチューニング不要で画像検索、コンテンツ審査、一般的な視覚言語タスクに利用できます。汎用的な画像理解に最適です。Multimodal, CLI…

視覚と言語をつなぐOpenAIのモデル。ゼロショットの画像分類、画像とテキストのマッチング、クロスモーダル検索を可能にします。4億件の画像・テキスト対で学習済み。ファインチューニング不要で画像検索、コンテンツ審査、一般的な視覚言語タスクに利用できます。汎用的な画像理解に最適です。Multimodal, CLIP,......

このページは OpenClaw Skills 学習ハブの一部で、導入手順・カテゴリ導線・実践リンクを提供します。

English 简体中文 繁體中文 Español Português