clip | 技能詳情 | OpenClaw Study

OpenAI 將視覺與語言連結的模型。可實現零樣本影像分類、影像與文字配對以及跨模態檢索。於約4億筆影像-文字配對上訓練。可在不進行微調的情況下用於影像搜尋、內容審核或視覺-語言任務。最適合通用影像理解的場景。

本頁屬於 OpenClaw Skills 學習體系，涵蓋技能安裝、分類導覽與實戰連結。