將凍結的圖像編碼器與大型語言模型連接的視覺-語言預訓練框架。當您需要圖像說明、視覺問答(VQA)、圖像-文字檢索或具備最先進零樣本效能的多模態對話時使用。Multimodal, Vision-Language, Image Captioning, VQA, Zero-Shot
將凍結的圖像編碼器與大型語言模型連接的視覺-語言預訓練框架。當您需要圖像說明、視覺問答(VQA)、圖像-文字檢索或具備最先進零樣本效能的多模態對話時使用。Multimodal, Vision-Language, Image Captioning, VQA, Zero-Shot
本頁屬於 OpenClaw Skills 學習體系,涵蓋技能安裝、分類導覽與實戰連結。